Gradient Boosting: Skforecast, XGBoost, LightGBM y CatBoost

Introducción

Los modelos gradient boosting destacan dentro de la comunidad de machine learning debido a su capacidad para lograr excelentes resultados en una amplia variedad de casos de uso, incluyendo tanto la regresión como la clasificación. Aunque su uso en el forecasting de series temporales ha sido limitado, también pueden conseguir resultados muy competitivos en este ámbito. Algunas de las ventajas que presentan los modelos gradient boosting para forecasting son:

  • La facilidad con que pueden incorporarse al modelo variables exógenas, además de las autorregresivas.

  • La capacidad de capturar relaciones no lineales entre variables.

  • Alta escalabilidad, que permite a los modelos manejar grandes volúmenes de datos.

  • Algunas implementaciones permiten la inclusión de variables categóricas sin necesidad de codificación adicional, como la codificación one-hot.

A pesar de estas ventajas, el uso de modelos de machine learning para forecasting presenta varios retos que pueden hacer que el analista sea reticente a su uso, los principales son:

  • Reestructurar los datos para poder utilizarlos como si se tratara de un problema de regresión.

  • Dependiendo de cuántas predicciones futuras se necesiten (horizonte de predicción), puede ser necesario implementar un proceso iterativo en el que cada nueva predicción se base en las anteriores.

  • La validación de los modelos requiere de estrategias específicas como backtesting, walk-forward validation o time series cross-validation. No puede aplicarse la validación cruzada tradicional.

La librería skforecast ofrece soluciones automatizadas a estos retos, facilitando el uso y la validación de modelos de machine learning en problemas de forecasting. Skforecast es compatible con las implementaciones de gradient boosting más avanzadas, incluyendo XGBoost, LightGBM, Catboost y HistGradientBoostingRegressor. Este documento muestra cómo utilizarlos para construir modelos de forecasting precisos.

Para garantizar una experiencia de aprendizaje fluida, se realiza una exploración inicial de los datos. A continuación, se explica paso a paso el proceso de modelización, empezando por un modelo recursivo que utiliza un regresor LightGBM y pasando por un modelo que incorpora variables exógenas y diversas estrategias de codificación. El documento concluye demostrando el uso de otras implementaciones de modelos de gradient boosting, como XGBoost, CatBoost y el HistGradientBoostingRegressor de scikit-learn.

Caso de uso

Los sistemas de bicicletas compartidas, también conocidos como sistemas de bicicletas públicas, facilitan la disponibilidad automática de bicicletas para que sean utilizadas temporalmente como medio de transporte. La mayoría de estos sistemas permiten recoger una bicicleta y devolverla en un punto diferente (estaciones o dockers), para que el usuario solo necesite tener la bicicleta en su posesión durante el desplazamiento. Uno de los principales retos en la gestión de estos sistemas es la necesidad de redistribuir las bicicletas para intentar que, en todas las estaciones, haya bicicletas disponibles a la vez que espacios libres para devoluciones.

Con el objetivo de mejorar la planificación y ejecución de la distribución de las bicicletas, se plantea crear un modelo capaz de predecir el número de usuarios para las siguientes 36 horas. De esta forma, a las 12h de cada día, la compañía encargada de gestionar las estaciones de alquiler podrá conocer la demanda prevista el resto del día (12 horas) y el siguiente día (24 horas).

A efectos ilustrativos, el ejemplo actual sólo modela una estación, sin embargo, el modelo puede ampliarse para cubrir múltiples estaciones utilizando global multi-series forecasting, mejorando así la gestión de los sistemas de bicicletas compartidas a mayor escala.

Librerías

Las librerías utilizadas en este documento son:

# Data processing
# ==============================================================================
#!pip install astral
#!pip install feature_engine
#!pip install xgboost
#!pip install lightgbm
#!pip install catboost
import numpy as np
import pandas as pd
from astral.sun import sun
from astral import LocationInfo
from skforecast.datasets import fetch_dataset
from feature_engine.datetime import DatetimeFeatures
from feature_engine.creation import CyclicalFeatures
from feature_engine.timeseries.forecasting import WindowFeatures

# Plots
# ==============================================================================
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from skforecast.plot import plot_residuals, calculate_lag_autocorrelation
import plotly.graph_objects as go
import plotly.io as pio
import plotly.offline as poff
pio.templates.default = "seaborn"
poff.init_notebook_mode(connected=True)
plt.style.use('seaborn-v0_8-darkgrid')

# Modelling and Forecasting
# ==============================================================================
import xgboost
import lightgbm
import catboost
import sklearn
import shap
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor
from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.preprocessing import (
    OneHotEncoder,
    OrdinalEncoder,
    FunctionTransformer,
    PolynomialFeatures,
)
from sklearn.feature_selection import RFECV
from sklearn.pipeline import make_pipeline
from sklearn.compose import make_column_transformer, make_column_selector

import skforecast
from skforecast.recursive import ForecasterEquivalentDate, ForecasterRecursive
from skforecast.model_selection import (
    TimeSeriesFold,
    OneStepAheadFold,
    bayesian_search_forecaster,
    backtesting_forecaster,
)
from skforecast.preprocessing import RollingFeatures
from skforecast.feature_selection import select_features
from skforecast.metrics import calculate_coverage

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('once')
C:\Users\WINDOWS 11\Documents\.virtualenvs\r-tensorflow\lib\site-packages\tqdm\auto.py:21: TqdmWarning:

IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html

Datos

Los datos empleados en este documento representan el uso, a nivel horario, del sistema de alquiler de bicicletas en la ciudad de Washington D.C. durante los años 2011 y 2012. Además del número de usuarios por hora, se dispone de información sobre las condiciones meteorológicas y sobre los días festivos. Los datos originales se han obtenido del UCI Machine Learning Repository y han sido procesados previamente (código) aplicando las siguientes modificaciones :

  • Columnas renombradas con nombres más descriptivos.

  • Categorías de la variable meteorológica renombradas. La categoría de heavy rain, se ha combinado con la de rain.

  • Variables de temperatura, humedad y viento desnormalizadas.

  • Creada variable date_time y establecida como índice.

  • Imputación de valores missing mediante forward fill.

# Descarga de datos
# ==============================================================================
datos = fetch_dataset('bike_sharing', raw=True)
bike_sharing
------------
Hourly usage of the bike share system in the city of Washington D.C. during the
years 2011 and 2012. In addition to the number of users per hour, information
about weather conditions and holidays is available.
Fanaee-T,Hadi. (2013). Bike Sharing Dataset. UCI Machine Learning Repository.
https://doi.org/10.24432/C5W894.
Shape of the dataset: (17544, 12)
# Preprocesado de datos (estableciendo índice y frecuencia)
# ==============================================================================
datos = datos[['date_time', 'users', 'holiday', 'weather', 'temp', 'atemp', 'hum', 'windspeed']]
datos['date_time'] = pd.to_datetime(datos['date_time'], format='%Y-%m-%d %H:%M:%S')
datos = datos.set_index('date_time')
if pd.__version__ < '2.2':
    datos = datos.asfreq('H')
else:
    datos = datos.asfreq('h')
datos = datos.sort_index()
datos.head()
users holiday weather temp atemp hum windspeed
date_time
2011-01-01 00:00:00 16.0 0.0 clear 9.84 14.395 81.0 0.0
2011-01-01 01:00:00 40.0 0.0 clear 9.02 13.635 80.0 0.0
2011-01-01 02:00:00 32.0 0.0 clear 9.02 13.635 80.0 0.0
2011-01-01 03:00:00 13.0 0.0 clear 9.84 14.395 75.0 0.0
2011-01-01 04:00:00 1.0 0.0 clear 9.84 14.395 75.0 0.0
# Separación de datos en entrenamiento, validación y test
# ==============================================================================
fin_train = '2012-04-30 23:59:00'
fin_validacion = '2012-08-31 23:59:00'
datos_train = datos.loc[: fin_train, :]
datos_val   = datos.loc[fin_train:fin_validacion, :]
datos_test  = datos.loc[fin_validacion:, :]
print(
    f"Fechas train      : {datos_train.index.min()} --- {datos_train.index.max()}  "
    f"(n={len(datos_train)})"
)
print(
    f"Fechas validación : {datos_val.index.min()} --- {datos_val.index.max()}  "
    f"(n={len(datos_val)})"
)
print(
    f"Fechas test       : {datos_test.index.min()} --- {datos_test.index.max()}  "
    f"(n={len(datos_test)})"
)
Fechas train      : 2011-01-01 00:00:00 --- 2012-04-30 23:00:00  (n=11664)
Fechas validación : 2012-05-01 00:00:00 --- 2012-08-31 23:00:00  (n=2952)
Fechas test       : 2012-09-01 00:00:00 --- 2012-12-31 23:00:00  (n=2928)

Exploración gráfica

La exploración gráfica de series temporales es una forma eficaz de identificar tendencias, patrones y variaciones estacionales. Esto, a su vez, ayuda a orientar la selección del modelo de forecasting más adecuado.

Representación de la serie temporal

Gráficos de estacionalidad

Los gráficos estacionales son una herramienta útil para identificar patrones y tendencias estacionales en una serie temporal. Se crean promediando los valores de cada estación a lo largo del tiempo y luego trazándolos en función del tiempo.

# Estacionalidad anual, semanal y diaria
# ==============================================================================
fig, axs = plt.subplots(2, 2, figsize=(8, 5), sharex=False, sharey=True)
axs = axs.ravel()

# Distribusión de usuarios por mes
datos['month'] = datos.index.month
datos.boxplot(column='users', by='month', ax=axs[0], flierprops={'markersize': 3, 'alpha': 0.3})
datos.groupby('month')['users'].median().plot(style='o-', linewidth=0.8, ax=axs[0])
axs[0].set_ylabel('Users')
axs[0].set_title('Distribución de usuarios por mes', fontsize=9)

# Distribusión de usuarios por día de la semana
datos['week_day'] = datos.index.day_of_week + 1
datos.boxplot(column='users', by='week_day', ax=axs[1], flierprops={'markersize': 3, 'alpha': 0.3})
datos.groupby('week_day')['users'].median().plot(style='o-', linewidth=0.8, ax=axs[1])
axs[1].set_ylabel('Users')
axs[1].set_title('Distribución de usuarios por día de la semana', fontsize=9)

# Distribusión de usuarios por hora del día
datos['hour_day'] = datos.index.hour + 1
datos.boxplot(column='users', by='hour_day', ax=axs[2], flierprops={'markersize': 3, 'alpha': 0.3})
datos.groupby('hour_day')['users'].median().plot(style='o-', linewidth=0.8, ax=axs[2])
axs[2].set_ylabel('Users')
axs[2].set_title('Distribución de usuarios por hora del día', fontsize=9)

# Distribusión de usuarios por día de la semana y hora del día
mean_day_hour = datos.groupby(["week_day", "hour_day"])["users"].mean()
mean_day_hour.plot(ax=axs[3])
axs[3].set(
    title       = "Promedio de usuarios",
    xticks      = [i * 24 for i in range(7)],
    xticklabels = ["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"],
    xlabel      = "Día y hora",
    ylabel      = "Users"
)
axs[3].title.set_size(9)

fig.suptitle("Gráficos de estacionalidad", fontsize=12)
fig.tight_layout()
plt.show()

Existe una clara diferencia entre los días entre semana y el fin de semana. También se observa un claro patrón intradiario, con diferente afluencia de usuarios dependiendo de la hora del día.

Gráficos de autocorrelación

Los gráficos de autocorrelación muestran la correlación entre una serie temporal y sus valores pasados. Son una herramienta útil para identificar el orden de un modelo autorregresivo, es decir, los valores pasados (lags) que se deben incluir en el modelo.

La función de autocorrelación (ACF) mide la correlación entre una serie temporal y sus valores pasados. La función de autocorrelación parcial (PACF) mide la correlación entre una serie temporal y sus valores pasados, pero solo después de eliminar las variaciones explicadas por los valores pasados intermedios.

# Gráfico autocorrelación
# ==============================================================================
fig, ax = plt.subplots(figsize=(8, 5))
plot_acf(datos['users'], ax=ax, lags=72)
plt.show()

# Gráfico autocorrelación parcial
# ==============================================================================
fig, ax = plt.subplots(figsize=(8, 5))
plot_pacf(datos['users'], ax=ax, lags=72, method='ywm')
plt.show()

# Top 10 lags con mayor autocorrelación parcial absoluta
# ==============================================================================
calculate_lag_autocorrelation(
    data    = datos['users'],
    n_lags  = 60,
    sort_by = "partial_autocorrelation_abs"
).head(10)
lag partial_autocorrelation_abs partial_autocorrelation autocorrelation_abs autocorrelation
0 1 0.845220 0.845220 0.845172 0.845172
1 2 0.408349 -0.408349 0.597704 0.597704
2 23 0.355669 0.355669 0.708470 0.708470
3 22 0.343601 0.343601 0.520804 0.520804
4 25 0.332366 -0.332366 0.711256 0.711256
5 10 0.272649 -0.272649 0.046483 -0.046483
6 17 0.241984 0.241984 0.057267 -0.057267
7 19 0.199286 0.199286 0.159897 0.159897
8 21 0.193404 0.193404 0.373666 0.373666
9 3 0.182068 0.182068 0.409680 0.409680

Los resultados del estudio de autocorrelación indican una correlación significativa entre el número de usuarios en las horas anteriores, así como en los días previos. Esto significa que conocer del número de usuarios durante periodos específicos del pasado proporciona información útil para predecir el número de usuarios en el futuro.

Baseline

Al enfrentarse a un problema de forecasting, es recomendable disponer de un modelo de referencia (baseline). Se trata de un modelo muy sencillo que puede utilizarse como referencia para evaluar si merece la pena aplicar modelos más complejos.

Skforecast permite crear fácilmente un modelo de referencia con su clase ForecasterEquivalentDate. Este modelo, también conocido como Seasonal Naive Forecasting, simplemente devuelve el valor observado en el mismo periodo de la temporada anterior (por ejemplo, el mismo día laboral de la semana anterior, la misma hora del día anterior, etc.).

A partir del análisis exploratorio realizado, el modelo de referencia será el que prediga cada hora utilizando el valor de la misma hora del día anterior.

# Crear un baseline: valor de la misma hora del día anterior
# ==============================================================================
forecaster = ForecasterEquivalentDate(
                offset    = pd.DateOffset(days=1),
                n_offsets = 1
             )

# Entremaiento del forecaster
# ==============================================================================
forecaster.fit(y=datos.loc[:fin_validacion, 'users'])
forecaster
======================== 
ForecasterEquivalentDate 
======================== 
Offset: <DateOffset: days=1> 
Number of offsets: 1 
Aggregation function: mean 
Window size: 24 
Series name: users 
Training range: [Timestamp('2011-01-01 00:00:00'), Timestamp('2012-08-31 23:00:00')] 
Training index type: DatetimeIndex 
Training index frequency: h 
Creation date: 2025-05-29 11:46:28 
Last fit date: 2025-05-29 11:46:28 
Skforecast version: 0.16.0 
Python version: 3.10.11 
Forecaster id: None 
# Backtesting
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_validacion]))
metrica_baseline, predicciones = backtesting_forecaster(
                                    forecaster = forecaster,
                                    y          = datos['users'],
                                    cv         = cv,
                                    metric     = 'mean_absolute_error'
                                )
metrica_baseline
  0%|          | 0/82 [00:00<?, ?it/s] 61%|██████    | 50/82 [00:00<00:00, 495.41it/s]100%|██████████| 82/82 [00:00<00:00, 490.31it/s]
mean_absolute_error
0 91.668716

El MAE del modelo baseline se utiliza como referencia para evaluar si merece la pena aplicar los modelos más complejos.

Forecasting con con LightGBM

LightGBM es una implementación altamente eficiente del algoritmo gradient boosting, que se ha convertido en un referente en el campo del machine learning. La librería LightGBM incluye su propia API, así como la API de scikit-learn, lo que la hace compatible con skforecast.

En primer lugar, se entrena un modelo ForecasterAutoreg utilizando valores pasados de la variable de respuesta (lags) y la media movil como predictores. Posteriormente, se añaden variables exógenas al modelo y se evalúa la mejora de su rendimiento. Dado que los modelos de Gradient Boosting tienen un gran número de hiperparámetros, se realiza una Búsqueda Bayesiana utilizando la función bayesian_search_forecaster() para encontrar la mejor combinación de hiperparámetros y lags. Por último, se evalúa la capacidad predictiva del modelo mediante un proceso de backtesting.

Forecaster

# Crear el forecaster
# ==============================================================================
window_features = RollingFeatures(stats=["mean"], window_sizes=24 * 3)
forecaster = ForecasterRecursive(
                regressor       = LGBMRegressor(random_state=15926, verbose=-1),
                lags            = 24,
                window_features = window_features
             )

# Entrenar el forecaster
# ==============================================================================
forecaster.fit(y=datos.loc[:fin_validacion, 'users'])
forecaster

ForecasterRecursive

General Information
  • Regressor: LGBMRegressor
  • Lags: [ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]
  • Window features: ['roll_mean_72']
  • Window size: 72
  • Series name: users
  • Exogenous included: False
  • Weight function included: False
  • Differentiation order: None
  • Creation date: 2025-05-29 11:46:28
  • Last fit date: 2025-05-29 11:46:30
  • Skforecast version: 0.16.0
  • Python version: 3.10.11
  • Forecaster id: None
Exogenous Variables
    None
Data Transformations
  • Transformer for y: None
  • Transformer for exog: None
Training Information
  • Training range: [Timestamp('2011-01-01 00:00:00'), Timestamp('2012-08-31 23:00:00')]
  • Training index type: DatetimeIndex
  • Training index frequency: h
Regressor Parameters
    {'boosting_type': 'gbdt', 'class_weight': None, 'colsample_bytree': 1.0, 'importance_type': 'split', 'learning_rate': 0.1, 'max_depth': -1, 'min_child_samples': 20, 'min_child_weight': 0.001, 'min_split_gain': 0.0, 'n_estimators': 100, 'n_jobs': None, 'num_leaves': 31, 'objective': None, 'random_state': 15926, 'reg_alpha': 0.0, 'reg_lambda': 0.0, 'subsample': 1.0, 'subsample_for_bin': 200000, 'subsample_freq': 0, 'verbose': -1}
Fit Kwargs
    {}

🛈 API Reference    🗎 User Guide

# Predicciones
# ==============================================================================
forecaster.predict(steps=10)
2012-09-01 00:00:00    108.331027
2012-09-01 01:00:00     68.562982
2012-09-01 02:00:00     33.499525
2012-09-01 03:00:00     10.027583
2012-09-01 04:00:00      3.037563
2012-09-01 05:00:00     17.162543
2012-09-01 06:00:00     51.059825
2012-09-01 07:00:00    146.940053
2012-09-01 08:00:00    344.320596
2012-09-01 09:00:00    439.738683
Freq: h, Name: pred, dtype: float64

Backtesting

Para obtener una estimación robusta de la capacidad predictiva del modelo, se realiza un proceso de backtesting. El proceso de backtesting consiste en generar una predicción para cada observación del conjunto de test, siguiendo el mismo procedimiento que se seguiría si el modelo estuviese en producción, y finalmente comparar el valor predicho con el valor real.

Se recomienda revisar la documentación de la función backtesting_forecaster para comprender mejor sus capacidades. Esto ayudará a utilizar todo su potencial para analizar la capacidad predictiva del modelo.

# Backtest del modelo con lo datos de test
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_validacion]))
metrica, predicciones = backtesting_forecaster(
                            forecaster = forecaster,
                            y          = datos['users'],
                            cv         = cv,
                            metric     = 'mean_absolute_error'
                        )
predicciones.head()

# Error de backtest
# ==============================================================================
metrica
  0%|          | 0/82 [00:00<?, ?it/s]  9%|▊         | 7/82 [00:00<00:01, 64.69it/s] 17%|█▋        | 14/82 [00:00<00:01, 62.14it/s] 26%|██▌       | 21/82 [00:00<00:01, 60.68it/s] 34%|███▍      | 28/82 [00:00<00:00, 59.44it/s] 43%|████▎     | 35/82 [00:00<00:00, 60.51it/s] 51%|█████     | 42/82 [00:00<00:00, 61.03it/s] 60%|█████▉    | 49/82 [00:00<00:00, 59.86it/s] 68%|██████▊   | 56/82 [00:00<00:00, 59.60it/s] 76%|███████▌  | 62/82 [00:01<00:00, 59.65it/s] 83%|████████▎ | 68/82 [00:01<00:00, 59.62it/s] 90%|█████████ | 74/82 [00:01<00:00, 59.53it/s] 99%|█████████▉| 81/82 [00:01<00:00, 62.29it/s]100%|██████████| 82/82 [00:01<00:00, 61.27it/s]
mean_absolute_error
0 76.464247

El error de predicción del modelo autorregresivo alcanza un MAE inferior al del modelo de referencia.

Variables exógenas

Hasta ahora, sólo se han utilizado como predictores los valores pasados (lags) de la serie temporal. Sin embargo, es posible incluir otras variables como predictores. Estas variables se conocen como variables exógenas (features) y su uso puede mejorar la capacidad predictiva del modelo. Un punto muy importante que hay que tener en cuenta es que los valores de las variables exógenas deben conocerse en el momento de la predicción.

Ejemplos habituales de variables exógenas son aquellas obtenidas del calendario, como el día de la semana, el mes, el año o los días festivos. Las variables meteorológicas como la temperatura, la humedad y el viento también entran en esta categoría, al igual que las variables económicas como la inflación y los tipos de interés.

Variables de calendario y meteorológicas

A continuación, se crean variables exógenas basadas en información del calendario, las horas de salida y puesta del sol, la temperatura y los días festivos. Estas nuevas variables se añaden a los conjuntos de entrenamiento, validación y test, y se utilizan como predictores en el modelo autorregresivo.

# Variables basadas en el calendario
# ==============================================================================
features_to_extract = [
    'month',
    'week',
    'day_of_week',
    'hour'
]
calendar_transformer = DatetimeFeatures(
    variables           = 'index',
    features_to_extract = features_to_extract,
    drop_original       = True,
)
variables_calendario = calendar_transformer.fit_transform(datos)[features_to_extract]

# Variables basadas en la luz solar
# ==============================================================================
location = LocationInfo(
    name      = 'Washington DC',
    region    = 'USA',
    timezone  = 'US/Eastern',
    latitude  = 40.516666666666666,
    longitude = -77.03333333333333
)
sunrise_hour = [
    sun(location.observer, date=date, tzinfo=location.timezone)['sunrise'].hour
    for date in datos.index
]
sunset_hour = [
    sun(location.observer, date=date, tzinfo=location.timezone)['sunset'].hour
    for date in datos.index
]
variables_solares = pd.DataFrame({
                        'sunrise_hour': sunrise_hour,
                        'sunset_hour': sunset_hour}, 
                        index = datos.index
                    )
variables_solares['daylight_hours'] = (
    variables_solares['sunset_hour'] - variables_solares['sunrise_hour']
)
variables_solares["is_daylight"] = np.where(
    (datos.index.hour >= variables_solares["sunrise_hour"])
    & (datos.index.hour < variables_solares["sunset_hour"]),
    1,
    0,
)

# Variables basadas en festivos
# ==============================================================================
variables_festivos = datos[['holiday']].astype(int)
variables_festivos['holiday_previous_day'] = variables_festivos['holiday'].shift(24)
variables_festivos['holiday_next_day'] = variables_festivos['holiday'].shift(-24)

# Variables basadas en temperatura
# ==============================================================================
wf_transformer = WindowFeatures(
    variables = ["temp"],
    window    = ["1D", "7D"],
    functions = ["mean", "max", "min"],
    freq      = "h",
)
variables_temp = wf_transformer.fit_transform(datos[['temp']])

# Unión de variables exógenas
# ==============================================================================
assert all(variables_calendario.index == variables_solares.index)
assert all(variables_calendario.index == variables_festivos.index)
assert all(variables_calendario.index == variables_temp.index)
variables_exogenas = pd.concat([
    variables_calendario,
    variables_solares,
    variables_temp,
    variables_festivos
], axis=1)

# Debido a la creación de medias móviles, hay valores faltantes al principio
# de la serie. Y debido a holiday_next_day hay valores faltantes al final.
variables_exogenas = variables_exogenas.iloc[7 * 24:, :]
variables_exogenas = variables_exogenas.iloc[:-24, :]
variables_exogenas.head(3)
month week day_of_week hour sunrise_hour sunset_hour daylight_hours is_daylight temp temp_window_1D_mean temp_window_1D_max temp_window_1D_min temp_window_7D_mean temp_window_7D_max temp_window_7D_min holiday holiday_previous_day holiday_next_day
date_time
2011-01-08 00:00:00 1 1 5 0 7 16 9 0 7.38 8.063333 9.02 6.56 10.127976 18.86 4.92 0 0.0 0.0
2011-01-08 01:00:00 1 1 5 1 7 16 9 0 7.38 8.029167 9.02 6.56 10.113333 18.86 4.92 0 0.0 0.0
2011-01-08 02:00:00 1 1 5 2 7 16 9 0 7.38 7.995000 9.02 6.56 10.103571 18.86 4.92 0 0.0 0.0

Variables con patrones cíclicos

Algunos aspectos del calendario, como las horas o los días, son cíclicos. Por ejemplo, la hora del día va de 0 a 23 horas. Este tipo de variables pueden tratarse de varias formas, cada una con sus ventajas e inconvenientes.

  • Un enfoque consiste en utilizar las variables directamente como valores numéricos sin ninguna transformación. Este método evita crear variables nuevas, pero puede imponer un orden lineal incorrecto a los valores. Por ejemplo, la hora 23 de un día y la hora 00 del siguiente están muy alejadas en su representación lineal, cuando en realidad sólo hay una hora de diferencia entre ellas.

  • Otra posibilidad es tratar las variables cíclicas como variables categóricas para evitar imponer un orden lineal. Sin embargo, este enfoque puede provocar la pérdida de la información cíclica inherente a la variable.

  • Existe una tercera forma de tratar las variables cíclicas que suele preferirse a los otros dos métodos. Se trata de transformar las variables utilizando el seno y el coseno de su periodo. Este método genera solo dos nuevas variables que captan la ciclicidad de los datos con mayor precisión que los dos métodos anteriores, ya que preserva el orden natural de la variable y evita imponer un orden lineal.

# Codificación cíclica de las variables de calendario y luz solar
# ==============================================================================
features_to_encode = [
    "month",
    "week",
    "day_of_week",
    "hour",
    "sunrise_hour",
    "sunset_hour",
]
max_values = {
    "month": 12,
    "week": 52,
    "day_of_week": 7,
    "hour": 24,
    "sunrise_hour": 24,
    "sunset_hour": 24,
}
cyclical_encoder = CyclicalFeatures(
    variables     = features_to_encode,
    max_values    = max_values,
    drop_original = False
)

variables_exogenas = cyclical_encoder.fit_transform(variables_exogenas)
variables_exogenas.head(3)
month week day_of_week hour sunrise_hour sunset_hour daylight_hours is_daylight temp temp_window_1D_mean ... week_sin week_cos day_of_week_sin day_of_week_cos hour_sin hour_cos sunrise_hour_sin sunrise_hour_cos sunset_hour_sin sunset_hour_cos
date_time
2011-01-08 00:00:00 1 1 5 0 7 16 9 0 7.38 8.063333 ... 0.120537 0.992709 -0.974928 -0.222521 0.000000 1.000000 0.965926 -0.258819 -0.866025 -0.5
2011-01-08 01:00:00 1 1 5 1 7 16 9 0 7.38 8.029167 ... 0.120537 0.992709 -0.974928 -0.222521 0.258819 0.965926 0.965926 -0.258819 -0.866025 -0.5
2011-01-08 02:00:00 1 1 5 2 7 16 9 0 7.38 7.995000 ... 0.120537 0.992709 -0.974928 -0.222521 0.500000 0.866025 0.965926 -0.258819 -0.866025 -0.5

3 rows × 30 columns

Interacción entre variables

En muchos casos, las variables exógenas no son independientes. Más bien, su efecto sobre la variable objetivo depende del valor de otras variables. Por ejemplo, el efecto de la temperatura en la demanda de electricidad depende de la hora del día. La interacción entre las variables exógenas puede captarse mediante nuevas variables que se obtienen multiplicando entre sí las variables existentes. Estas interacciones se obtienen fácilmente con la clase PolynomialFeatures de scikit-learn.

# Interacción entre variables exógenas
# ==============================================================================
transformer_poly = PolynomialFeatures(
                        degree           = 2,
                        interaction_only = True,
                        include_bias     = False
                    ).set_output(transform="pandas")
poly_cols = [
    'month_sin', 
    'month_cos',
    'week_sin',
    'week_cos',
    'day_of_week_sin',
    'day_of_week_cos',
    'hour_sin',
    'hour_cos',
    'sunrise_hour_sin',
    'sunrise_hour_cos',
    'sunset_hour_sin',
    'sunset_hour_cos',
    'daylight_hours',
    'is_daylight',
    'holiday_previous_day',
    'holiday_next_day',
    'temp_window_1D_mean',
    'temp_window_1D_min',
    'temp_window_1D_max',
    'temp_window_7D_mean',
    'temp_window_7D_min',
    'temp_window_7D_max',
    'temp',
    'holiday'
]
variables_poly = transformer_poly.fit_transform(variables_exogenas[poly_cols])
variables_poly = variables_poly.drop(columns=poly_cols)
variables_poly.columns = [f"poly_{col}" for col in variables_poly.columns]
variables_poly.columns = variables_poly.columns.str.replace(" ", "__")
assert all(variables_exogenas.index == variables_poly.index)
variables_exogenas = pd.concat([variables_exogenas, variables_poly], axis=1)
variables_exogenas.head(3)
month week day_of_week hour sunrise_hour sunset_hour daylight_hours is_daylight temp temp_window_1D_mean ... poly_temp_window_7D_mean__temp_window_7D_min poly_temp_window_7D_mean__temp_window_7D_max poly_temp_window_7D_mean__temp poly_temp_window_7D_mean__holiday poly_temp_window_7D_min__temp_window_7D_max poly_temp_window_7D_min__temp poly_temp_window_7D_min__holiday poly_temp_window_7D_max__temp poly_temp_window_7D_max__holiday poly_temp__holiday
date_time
2011-01-08 00:00:00 1 1 5 0 7 16 9 0 7.38 8.063333 ... 49.829643 191.013631 74.744464 0.0 92.7912 36.3096 0.0 139.1868 0.0 0.0
2011-01-08 01:00:00 1 1 5 1 7 16 9 0 7.38 8.029167 ... 49.757600 190.737467 74.636400 0.0 92.7912 36.3096 0.0 139.1868 0.0 0.0
2011-01-08 02:00:00 1 1 5 2 7 16 9 0 7.38 7.995000 ... 49.709571 190.553357 74.564357 0.0 92.7912 36.3096 0.0 139.1868 0.0 0.0

3 rows × 306 columns

Variables categóricas

Existen varios enfoques para incorporar variables categóricas en LightGBM (y otras implementaciones de gradient boosting):

  • Una opción es transformar los datos convirtiendo los valores categóricos en valores numéricos utilizando métodos como la codificación one hot la codificación ordinal. Este enfoque es aplicable a todos los modelos de aprendizaje automático.

  • LightGBM puede manejar variables categóricas internamente sin necesidad de preprocesamiento. Esto puede hacerse automáticamente estableciendo el parámetro categorical_features='auto' y almacenando las variables con el tipo de dato category dentro de un Pandas DataFrame. Tambien es posible especificar los nombres de las variables a tratar como categóricas pasando una lista de nombres al parámetro categorical_features.

No hay un método que sea siempre mejor que los otros. Las reglas generales son:

  • Cuando la cardinalidad de las variables categóricas es alta (muchos valores diferentes), es mejor utilizar el soporte nativo para variables categóricas que utilizar la codificación one-hot.

  • Con datos codificados con one hot encoding, se necesitan más puntos de división (es decir, más profundidad) para recuperar una división equivalente a la que podría obtenerse con un solo punto de división utilizando el tratamiento nativo.

  • Cuando una variable categórica se convierte en múltiples variables dummy utilizando one hot encoding, su importancia se diluye, haciendo que el análisis de la importancia de las características sea más complejo de interpretar.

# Almacenar las variables categoricas como tipo "category"
# ==============================================================================
datos["weather"] = datos["weather"].astype("category")

ColumnTransformers en scikit-learn proporcionan una potente forma de definir transformaciones y aplicarlas a variables específicas. Al encapsular las transformaciones en un objeto ColumnTransformer, se puede pasar a un Forecaster utilizando el argumento transformer_exog.

# Transformación con codificación one-hot
# ==============================================================================
one_hot_encoder = make_column_transformer(
    (
        OneHotEncoder(sparse_output=False, drop='if_binary'),
        make_column_selector(dtype_include=['category', 'object']),
    ),
    remainder="passthrough",
    verbose_feature_names_out=False,
).set_output(transform="pandas")  
# Crear un forecaster con un transformer para las variables exógenas
# ==============================================================================
forecaster = ForecasterRecursive(
                regressor        = LGBMRegressor(random_state=15926, verbose=-1),
                lags             = 72,
                transformer_exog = one_hot_encoder
             )

Para examinar cómo se transforman los datos, se puede utilizar el método create_train_X_y y generar las matrices que el forecaster utiliza para entrenar el modelo. Este método permite conocer las manipulaciones específicas de los datos que se producen durante el proceso de entrenamiento.

# Mostrar matrices de entrenamiento
# ==============================================================================
exog_cols = ['weather']        
X_train, y_train = forecaster.create_train_X_y(
                        y    = datos.loc[:fin_validacion, 'users'],
                        exog = datos.loc[:fin_validacion, exog_cols]
                   )
X_train.head(3)
lag_1 lag_2 lag_3 lag_4 lag_5 lag_6 lag_7 lag_8 lag_9 lag_10 ... lag_66 lag_67 lag_68 lag_69 lag_70 lag_71 lag_72 weather_clear weather_mist weather_rain
date_time
2011-01-04 00:00:00 12.0 20.0 52.0 52.0 110.0 157.0 157.0 76.0 72.0 77.0 ... 2.0 1.0 1.0 13.0 32.0 40.0 16.0 1.0 0.0 0.0
2011-01-04 01:00:00 5.0 12.0 20.0 52.0 52.0 110.0 157.0 157.0 76.0 72.0 ... 3.0 2.0 1.0 1.0 13.0 32.0 40.0 1.0 0.0 0.0
2011-01-04 02:00:00 2.0 5.0 12.0 20.0 52.0 52.0 110.0 157.0 157.0 76.0 ... 8.0 3.0 2.0 1.0 1.0 13.0 32.0 1.0 0.0 0.0

3 rows × 75 columns

La estrategia One Hot Encoder se ha mostrado con fines didácticos. Para el resto del documento, sin embargo, se utiliza el soporte nativo para variables categóricas.

Implementación nativa para variables categóricas

Las librerías de Gradient Boosting (XGBoost, LightGBM, CatBoost y HistGradientBoostingRegressor) asumen que las variables de entrada son números enteros empezando por 0 hasta el número de categorías [0, 1, …, n_categories-1]. En la mayoría de los casos reales, las variables categóricas no se codifican con números sino con cadenas (strings), por lo que es necesario un paso intermedio de transformación. Existen dos opciones:

  • Asignar a las columnas con variables categóricas el tipo category. Internamente, esta estructura de datos consiste en una matriz de categorías y una matriz de valores enteros (códigos) que apuntan al valor real de la matriz de categorías. Es decir, internamente es una matriz numérica con un mapeo que relaciona cada valor con una categoría. Los modelos son capaces de identificar automáticamente las columnas de tipo category y acceder a sus códigos internos. Este enfoque es aplicable a XGBoost, LightGBM y CatBoost.

  • Preprocesar las columnas categóricas con un OrdinalEncoder para transformar sus valores a enteros y luego indicar explícitamente que deben ser tratadas como categóricas.

Para utilizar la detección automática en skforecast, las variables categóricas deben codificarse primero como enteros y luego almacenarse de nuevo como tipo category. Esto se debe a que skforecast utiliza internamente una matriz numérica numpy para acelerar el cálculo.

# Transformación: codificación ordinal + conversión a tipo "category"
# ==============================================================================
pipeline_categorical = make_pipeline(
    OrdinalEncoder(
        dtype=int,
        handle_unknown="use_encoded_value",
        unknown_value=-1,
        encoded_missing_value=-1
    ),
    FunctionTransformer(
        func=lambda x: x.astype('category'),
        feature_names_out= 'one-to-one'
    )
)

transformer_exog = make_column_transformer(
    (
        pipeline_categorical,
        make_column_selector(dtype_include=['category', 'object']),
    ),
    remainder="passthrough",
    verbose_feature_names_out=False,
).set_output(transform="pandas")

Cuando se utiliza el regresor LightGBM, se tiene que especificar cómo tratar las variables categóricas utilizando el argumento categorical_feature en el método fit(). Esto es debido a que el argumento categorical_feature sólo se puede especificar en el método fit() y no en la inicialización del regresor.

# Crear un forecaster con detección automática de variables categóricas (LGBMRegressor)
# ==============================================================================
forecaster = ForecasterRecursive(
                regressor        = LGBMRegressor(random_state=15926, verbose=-1),
                lags             = 72,
                transformer_exog = transformer_exog,
                fit_kwargs       = {"categorical_feature": "auto"}
             )

Evaluar el modelo con variables exógenas

Se entrena de nuevo el forecaster, pero esta vez, las variables exógenas también se incluyen como predictores. Para las variables categóricas, se utiliza la implementación nativa.

# Selección de variables exógenas a incluir en el modelo
# ==============================================================================
exog_cols = []
# Columnas que terminan con _seno o _coseno son seleccionadas
exog_cols.extend(variables_exogenas.filter(regex='_sin$|_cos$').columns.tolist())
# Columnas que empiezan con tem_ son seleccionadas
exog_cols.extend(variables_exogenas.filter(regex='^temp_.*').columns.tolist())
# Columnas que empiezan con holiday_ son seleccionadas
exog_cols.extend(variables_exogenas.filter(regex='^holiday_.*').columns.tolist())
exog_cols.extend(['temp', 'holiday', 'weather'])

variables_exogenas = variables_exogenas.filter(exog_cols, axis=1)
# Combinar variables exógenas y target en el mismo dataframe
# ==============================================================================
datos = datos[['users', 'weather']].merge(
            variables_exogenas,
            left_index  = True,
            right_index = True,
            how         = 'inner'  # Para utilizar solo fechas para las que hay datos exógenos
        )
datos = datos.astype({col: np.float32 for col in datos.select_dtypes("number").columns})
datos_train = datos.loc[: fin_train, :].copy()
datos_val   = datos.loc[fin_train:fin_validacion, :].copy()
datos_test  = datos.loc[fin_validacion:, :].copy()
# Backtesting en los datos de test incluyendo las variables exógenas
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_validacion]))
metrica, predicciones = backtesting_forecaster(
                            forecaster = forecaster,
                            y          = datos['users'],
                            exog       = datos[exog_cols],
                            cv         = cv,
                            metric     = 'mean_absolute_error'
                        )
metrica
  0%|          | 0/81 [00:00<?, ?it/s]  5%|▍         | 4/81 [00:00<00:02, 34.88it/s] 10%|▉         | 8/81 [00:00<00:01, 36.85it/s] 15%|█▍        | 12/81 [00:00<00:01, 37.04it/s] 20%|█▉        | 16/81 [00:00<00:01, 36.93it/s] 25%|██▍       | 20/81 [00:00<00:01, 36.16it/s] 30%|██▉       | 24/81 [00:00<00:01, 37.10it/s] 35%|███▍      | 28/81 [00:00<00:01, 36.18it/s] 41%|████      | 33/81 [00:00<00:01, 39.00it/s] 46%|████▌     | 37/81 [00:00<00:01, 38.14it/s] 51%|█████     | 41/81 [00:01<00:01, 36.56it/s] 56%|█████▌    | 45/81 [00:01<00:01, 35.25it/s] 60%|██████    | 49/81 [00:01<00:00, 36.00it/s] 65%|██████▌   | 53/81 [00:01<00:00, 36.16it/s] 72%|███████▏  | 58/81 [00:01<00:00, 36.73it/s] 77%|███████▋  | 62/81 [00:01<00:00, 37.55it/s] 81%|████████▏ | 66/81 [00:01<00:00, 37.49it/s] 86%|████████▋ | 70/81 [00:01<00:00, 37.87it/s] 91%|█████████▏| 74/81 [00:02<00:00, 36.69it/s] 96%|█████████▋| 78/81 [00:02<00:00, 36.55it/s]100%|██████████| 81/81 [00:02<00:00, 37.04it/s]
mean_absolute_error
0 48.350039

La incorporación de variables exógenas mejora la capacidad predictiva del modelo.

Optimización de hiperparámetros

El ForecasterRecursive entrenado utiliza los primeros 24 lags y un modelo LGMBRegressor con los hiperparámetros por defecto. Sin embargo, no hay ninguna razón por la que estos valores sean los más adecuados. Para encontrar los mejores hiperparámetros, se realiza una Búsqueda Bayesiana con la función bayesian_search_forecaster(). La búsqueda se lleva a cabo utilizando el mismo proceso de backtesting que antes, pero cada vez, el modelo se entrena con diferentes combinaciones de hiperparámetros y lags. Es importante señalar que la búsqueda de hiperparámetros debe realizarse utilizando el conjunto de validación, nunca con los datos de test.

La búsqueda se realiza probando cada combinación de hiperparámetros y retardos del siguiente modo:

  1. Entrenar el modelo utilizando sólo el conjunto de entrenamiento.

  2. El modelo se evalúa utilizando el conjunto de validación mediante backtesting.

  3. Seleccionar la combinación de hiperparámetros y retardos que proporcione el menor error.

    1. Volver a entrenar el modelo con la mejor combinación encontrada, esta vez utilizando tanto los datos de entrenamiento como los de validación.

Siguiendo estos pasos, se puede obtener un modelo con hiperparámetros optimizados y evitar el sobreajuste.

# Búsqueda de hiperparámetros
# ==============================================================================
forecaster = ForecasterRecursive(
                regressor        = LGBMRegressor(random_state=15926, verbose=-1),
                lags             = 72,
                window_features  = window_features,
                transformer_exog = transformer_exog,
                fit_kwargs       = {"categorical_feature": "auto"}
             )

# Lags grid
lags_grid = [48, 72, (1, 2, 3, 23, 24, 25, 167, 168, 169)]

# Espacio de búsqueda de hiperparámetros
def search_space(trial):
    search_space  = {
        'n_estimators'    : trial.suggest_int('n_estimators', 300, 1000, step=100),
        'max_depth'       : trial.suggest_int('max_depth', 3, 10),
        'min_data_in_leaf': trial.suggest_int('min_data_in_leaf', 25, 500),
        'learning_rate'   : trial.suggest_float('learning_rate', 0.01, 0.5),
        'feature_fraction': trial.suggest_float('feature_fraction', 0.5, 1),
        'max_bin'         : trial.suggest_int('max_bin', 50, 250),
        'reg_alpha'       : trial.suggest_float('reg_alpha', 0, 1),
        'reg_lambda'      : trial.suggest_float('reg_lambda', 0, 1),
        'lags'            : trial.suggest_categorical('lags', lags_grid)
    } 
    return search_space

# Particiones de entrenamiento y validación
cv_search = TimeSeriesFold(steps = 36, initial_train_size = len(datos_train))

results_search, frozen_trial = bayesian_search_forecaster(
    forecaster    = forecaster,
    y             = datos.loc[:fin_validacion, 'users'],
    exog          = datos.loc[:fin_validacion, exog_cols],
    cv            = cv_search,
    search_space  = search_space,
    metric        = 'mean_absolute_error',
    n_trials      = 20,
    return_best   = True,
    n_jobs        = 1
)
best_params = results_search['params'].iat[0]
best_params = best_params | {'random_state': 15926, 'verbose': -1}
best_lags   = results_search['lags'].iat[0]
# Search results
# ==============================================================================
results_search.head(3)
# Backtesting en los datos
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos[:fin_validacion]))
metrica, predicciones = backtesting_forecaster(
                            forecaster = forecaster,
                            y          = datos['users'],
                            exog       = datos[exog_cols],
                            cv         = cv,
                            metric     = 'mean_absolute_error'
                        )
metrica
  0%|          | 0/20 [00:00<?, ?it/s]Best trial: 0. Best value: 69.3725:   0%|          | 0/20 [00:02<?, ?it/s]Best trial: 0. Best value: 69.3725:   5%|▌         | 1/20 [00:02<00:55,  2.91s/it]Best trial: 1. Best value: 65.189:   5%|▌         | 1/20 [00:05<00:55,  2.91s/it] Best trial: 1. Best value: 65.189:  10%|█         | 2/20 [00:05<00:50,  2.82s/it]Best trial: 2. Best value: 63.5914:  10%|█         | 2/20 [00:08<00:50,  2.82s/it]Best trial: 2. Best value: 63.5914:  15%|█▌        | 3/20 [00:08<00:48,  2.85s/it]Best trial: 3. Best value: 58.8332:  15%|█▌        | 3/20 [00:11<00:48,  2.85s/it]Best trial: 3. Best value: 58.8332:  20%|██        | 4/20 [00:11<00:44,  2.76s/it]Best trial: 3. Best value: 58.8332:  20%|██        | 4/20 [00:14<00:44,  2.76s/it]Best trial: 3. Best value: 58.8332:  25%|██▌       | 5/20 [00:14<00:41,  2.80s/it]Best trial: 3. Best value: 58.8332:  25%|██▌       | 5/20 [00:16<00:41,  2.80s/it]Best trial: 3. Best value: 58.8332:  30%|███       | 6/20 [00:16<00:38,  2.76s/it]Best trial: 3. Best value: 58.8332:  30%|███       | 6/20 [00:19<00:38,  2.76s/it]Best trial: 3. Best value: 58.8332:  35%|███▌      | 7/20 [00:19<00:36,  2.81s/it]Best trial: 3. Best value: 58.8332:  35%|███▌      | 7/20 [00:22<00:36,  2.81s/it]Best trial: 3. Best value: 58.8332:  40%|████      | 8/20 [00:22<00:32,  2.69s/it]Best trial: 3. Best value: 58.8332:  40%|████      | 8/20 [00:24<00:32,  2.69s/it]Best trial: 3. Best value: 58.8332:  45%|████▌     | 9/20 [00:24<00:29,  2.71s/it]Best trial: 3. Best value: 58.8332:  45%|████▌     | 9/20 [00:27<00:29,  2.71s/it]Best trial: 3. Best value: 58.8332:  50%|█████     | 10/20 [00:27<00:26,  2.68s/it]Best trial: 3. Best value: 58.8332:  50%|█████     | 10/20 [00:29<00:26,  2.68s/it]Best trial: 3. Best value: 58.8332:  55%|█████▌    | 11/20 [00:29<00:23,  2.59s/it]Best trial: 3. Best value: 58.8332:  55%|█████▌    | 11/20 [00:32<00:23,  2.59s/it]Best trial: 3. Best value: 58.8332:  60%|██████    | 12/20 [00:32<00:20,  2.55s/it]Best trial: 3. Best value: 58.8332:  60%|██████    | 12/20 [00:35<00:20,  2.55s/it]Best trial: 3. Best value: 58.8332:  65%|██████▌   | 13/20 [00:35<00:18,  2.61s/it]Best trial: 3. Best value: 58.8332:  65%|██████▌   | 13/20 [00:37<00:18,  2.61s/it]Best trial: 3. Best value: 58.8332:  70%|███████   | 14/20 [00:37<00:15,  2.55s/it]Best trial: 3. Best value: 58.8332:  70%|███████   | 14/20 [00:40<00:15,  2.55s/it]Best trial: 3. Best value: 58.8332:  75%|███████▌  | 15/20 [00:40<00:12,  2.58s/it]Best trial: 3. Best value: 58.8332:  75%|███████▌  | 15/20 [00:42<00:12,  2.58s/it]Best trial: 3. Best value: 58.8332:  80%|████████  | 16/20 [00:42<00:10,  2.61s/it]Best trial: 16. Best value: 57.4977:  80%|████████  | 16/20 [00:45<00:10,  2.61s/it]Best trial: 16. Best value: 57.4977:  85%|████████▌ | 17/20 [00:45<00:07,  2.57s/it]Best trial: 16. Best value: 57.4977:  85%|████████▌ | 17/20 [00:47<00:07,  2.57s/it]Best trial: 16. Best value: 57.4977:  90%|█████████ | 18/20 [00:47<00:05,  2.57s/it]Best trial: 16. Best value: 57.4977:  90%|█████████ | 18/20 [00:50<00:05,  2.57s/it]Best trial: 16. Best value: 57.4977:  95%|█████████▌| 19/20 [00:50<00:02,  2.59s/it]Best trial: 19. Best value: 55.0165:  95%|█████████▌| 19/20 [00:52<00:02,  2.59s/it]Best trial: 19. Best value: 55.0165: 100%|██████████| 20/20 [00:52<00:00,  2.53s/it]Best trial: 19. Best value: 55.0165: 100%|██████████| 20/20 [00:52<00:00,  2.64s/it]
`Forecaster` refitted using the best-found lags and parameters, and the whole data set: 
  Lags: [  1   2   3  23  24  25 167 168 169] 
  Parameters: {'n_estimators': 300, 'max_depth': 8, 'min_data_in_leaf': 84, 'learning_rate': 0.03208367008069202, 'feature_fraction': 0.6966856646946507, 'max_bin': 141, 'reg_alpha': 0.22914980380651362, 'reg_lambda': 0.15917712164349596}
  Backtesting metric: 55.01654818651542
  0%|          | 0/81 [00:00<?, ?it/s]  5%|▍         | 4/81 [00:00<00:01, 39.90it/s] 10%|▉         | 8/81 [00:00<00:01, 37.10it/s] 15%|█▍        | 12/81 [00:00<00:01, 36.03it/s] 20%|█▉        | 16/81 [00:00<00:01, 36.05it/s] 25%|██▍       | 20/81 [00:00<00:01, 36.30it/s] 30%|██▉       | 24/81 [00:00<00:01, 35.20it/s] 35%|███▍      | 28/81 [00:00<00:01, 35.97it/s] 40%|███▉      | 32/81 [00:00<00:01, 34.85it/s] 44%|████▍     | 36/81 [00:01<00:01, 35.27it/s] 49%|████▉     | 40/81 [00:01<00:01, 34.92it/s] 54%|█████▍    | 44/81 [00:01<00:01, 34.79it/s] 59%|█████▉    | 48/81 [00:01<00:00, 35.92it/s] 64%|██████▍   | 52/81 [00:01<00:00, 36.63it/s] 70%|███████   | 57/81 [00:01<00:00, 38.13it/s] 77%|███████▋  | 62/81 [00:01<00:00, 38.51it/s] 81%|████████▏ | 66/81 [00:01<00:00, 31.88it/s] 86%|████████▋ | 70/81 [00:01<00:00, 32.80it/s] 91%|█████████▏| 74/81 [00:02<00:00, 32.13it/s] 96%|█████████▋| 78/81 [00:02<00:00, 32.91it/s]100%|██████████| 81/81 [00:02<00:00, 35.19it/s]
mean_absolute_error
0 46.937169

Selección de predictores

La selección de predictores (feature selection) es el proceso de identificar un subconjunto de predictores relevantes para su uso en la creación del modelo. Es un paso importante en el proceso de machine learning, ya que puede ayudar a reducir el sobreajuste, mejorar la precisión del modelo y reducir el tiempo de entrenamiento. Dado que los regresores subyacentes de skforecast siguen la API de scikit-learn, es posible utilizar los métodos de selección de predictores disponibles en scikit-learn. Dos de los métodos más populares son Recursive Feature Elimination y Sequential Feature Selection.

# Crear forecaster
# ==============================================================================
regressor = LGBMRegressor(
    n_estimators = 100,
    max_depth    = 5,
    random_state = 15926,
    verbose      = -1
)

forecaster = ForecasterRecursive(
    regressor        = regressor,
    lags             = best_lags,
    window_features  = window_features,
    transformer_exog = transformer_exog,
    fit_kwargs       = {"categorical_feature": "auto"}
)

# Eliminación recursiva de predictores con validación cruzada
# ==============================================================================
warnings.filterwarnings("ignore", message="X does not have valid feature names.*")
selector = RFECV(
    estimator = regressor,
    step      = 1,
    cv        = 3,
)
lags_seleccionados, window_features_seleccionadas, exog_seleccionadas = select_features(
    forecaster      = forecaster,
    selector        = selector,
    y               = datos_train['users'],
    exog            = datos_train[exog_cols],
    select_only     = None,
    force_inclusion = None,
    subsample       = 0.5,
    random_state    = 123,
    verbose         = True,
)
Recursive feature elimination (RFECV)
-------------------------------------
Total number of records available: 11327
Total number of records used for feature selection: 5663
Number of features available: 99
    Lags            (n=9)
    Window features (n=1)
    Exog            (n=89)
Number of features selected: 60
    Lags            (n=9) : [1, 2, 3, 23, 24, 25, 167, 168, 169]
    Window features (n=1) : ['roll_mean_72']
    Exog            (n=50) : ['weather', 'month_sin', 'week_sin', 'week_cos', 'day_of_week_sin', 'hour_sin', 'hour_cos', 'poly_month_sin__week_cos', 'poly_month_sin__day_of_week_sin', 'poly_month_sin__day_of_week_cos', 'poly_month_sin__hour_sin', 'poly_month_sin__hour_cos', 'poly_month_cos__week_sin', 'poly_month_cos__day_of_week_sin', 'poly_month_cos__day_of_week_cos', 'poly_month_cos__hour_sin', 'poly_month_cos__hour_cos', 'poly_week_sin__day_of_week_sin', 'poly_week_sin__day_of_week_cos', 'poly_week_sin__hour_sin', 'poly_week_sin__hour_cos', 'poly_week_sin__sunrise_hour_cos', 'poly_week_cos__day_of_week_sin', 'poly_week_cos__day_of_week_cos', 'poly_week_cos__hour_sin', 'poly_week_cos__hour_cos', 'poly_week_cos__sunrise_hour_cos', 'poly_day_of_week_sin__day_of_week_cos', 'poly_day_of_week_sin__hour_sin', 'poly_day_of_week_sin__hour_cos', 'poly_day_of_week_sin__sunrise_hour_sin', 'poly_day_of_week_sin__sunset_hour_sin', 'poly_day_of_week_cos__hour_sin', 'poly_day_of_week_cos__hour_cos', 'poly_day_of_week_cos__sunset_hour_sin', 'poly_hour_sin__hour_cos', 'poly_hour_sin__sunrise_hour_sin', 'poly_hour_sin__sunrise_hour_cos', 'poly_hour_sin__sunset_hour_sin', 'poly_hour_sin__sunset_hour_cos', 'poly_hour_cos__sunrise_hour_sin', 'poly_hour_cos__sunrise_hour_cos', 'poly_hour_cos__sunset_hour_sin', 'temp_window_1D_mean', 'temp_window_1D_max', 'temp_window_1D_min', 'temp_window_7D_mean', 'temp_window_7D_min', 'temp', 'holiday']

El RFECV de scikit-learn empieza entrenando un modelo con todos los predictores disponibles y calculando la importancia de cada uno en base a los atributos como coef_ o feature_importances_. A continuación, se elimina el predictor menos importante y se realiza una validación cruzada para calcular el rendimiento del modelo con los predictores restantes. Este proceso se repite hasta que la eliminación de predictores adicionales no mejora la metrica de rendimiento elegida o se alcanza el min_features_to_select.

El resultado final es un subconjunto de predictores que idealmente equilibra la simplicidad del modelo y su capacidad predictiva, determinada por el proceso de validación cruzada.

El forecater se entrena y evalúa de nuevo utilizando el conjunto de predictores seleccionados.

# Crear forecaster con los predictores seleccionados
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor        = LGBMRegressor(**best_params),
    lags             = lags_seleccionados,
    window_features  = window_features,
    transformer_exog = transformer_exog,
    fit_kwargs       = {"categorical_feature": "auto"}
)

# Backtesting con los predictores seleccionados y los datos de test
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos[:fin_validacion]))
metrica_lgbm, predicciones = backtesting_forecaster(
    forecaster = forecaster,
    y          = datos['users'],
    exog       = datos[exog_seleccionadas],
    cv         = cv,
    metric     = 'mean_absolute_error'
)
metrica_lgbm
  0%|          | 0/81 [00:00<?, ?it/s]  6%|▌         | 5/81 [00:00<00:01, 42.55it/s] 12%|█▏        | 10/81 [00:00<00:01, 42.91it/s] 19%|█▊        | 15/81 [00:00<00:01, 42.38it/s] 25%|██▍       | 20/81 [00:00<00:01, 42.47it/s] 31%|███       | 25/81 [00:00<00:01, 42.58it/s] 37%|███▋      | 30/81 [00:00<00:01, 42.38it/s] 43%|████▎     | 35/81 [00:00<00:01, 40.62it/s] 49%|████▉     | 40/81 [00:00<00:01, 40.39it/s] 56%|█████▌    | 45/81 [00:01<00:00, 40.88it/s] 62%|██████▏   | 50/81 [00:01<00:00, 41.00it/s] 68%|██████▊   | 55/81 [00:01<00:00, 39.26it/s] 74%|███████▍  | 60/81 [00:01<00:00, 40.29it/s] 80%|████████  | 65/81 [00:01<00:00, 39.42it/s] 86%|████████▋ | 70/81 [00:01<00:00, 41.37it/s] 93%|█████████▎| 75/81 [00:01<00:00, 41.79it/s] 99%|█████████▉| 80/81 [00:01<00:00, 42.51it/s]100%|██████████| 81/81 [00:01<00:00, 41.39it/s]
mean_absolute_error
0 46.751648

El rendimiento del modelo sigue siendo similar al del modelo entrenado con todas las variables. Sin embargo, el modelo es ahora mucho más simple, lo que hará que sea más rápido de entrenar y menos propenso al sobreajuste. Para el resto del documento, el modelo se entrenará utilizando sólo las variables seleccionadas.

# Actualizar las variables exógenas utilizadas
# ==============================================================================
exog_cols = exog_seleccionadas

Forecasting probabilístico: intervalos de predicción

Un intervalo de predicción define el intervalo dentro del cual es de esperar que se encuentre el verdadero valor de la variable respuesta con una determinada probabilidad. Skforecast implementa varios métodos para el forecasting probabilístico:

El siguiente código muestra cómo generar intervalos de predicción utilizando el método coformal prediction.

  • Con la función prediction_interval() se predicen los intervalos para los siguientes n step.

  • Con la función backtesting_forecaster() se predicen los intervalos de todo el conjunto de test.

El argumento interval se utiliza para especificar la probabilidad de cobertura deseada de los intervalos. En este caso, interval se establece en [5, 95], lo que significa una cobertura teórica del 90%.

# Crear y entrenar forecaster
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor        = LGBMRegressor(**best_params),
    lags             = [1, 2, 3, 23, 24, 25, 167, 168, 169],
    window_features  = window_features,
    transformer_exog = transformer_exog,
    fit_kwargs       = {"categorical_feature": "auto"},
    binner_kwargs    = {"n_bins": 5}
)
forecaster.fit(
    y    = datos.loc[:fin_train, 'users'],
    exog = datos.loc[:fin_train, exog_cols],
    store_in_sample_residuals = True
)
# Predicción de intervalos
# ==============================================================================
# Como el modelo ha sido entrenado con variables exógenas, se tienen que pasar
# para las predicciones.
predicciones = forecaster.predict_interval(
    exog     = datos.loc[fin_train:, exog_cols],
    steps    = 36,
    interval = [5, 95],
    method   = 'conformal',
)
predicciones.head()
pred lower_bound upper_bound
2012-05-01 00:00:00 23.714525 0.062383 47.366666
2012-05-01 01:00:00 8.618651 0.297713 16.939588
2012-05-01 02:00:00 5.222926 -3.098012 13.543864
2012-05-01 03:00:00 5.053190 -3.267748 13.374128
2012-05-01 04:00:00 6.758192 -1.562746 15.079130

Por defecto, los intervalos se calculan utilizando los residuos in-sample (residuos del conjunto de entrenamiento). Sin embargo, esto puede dar lugar a intervalos demasiado estrechos (demasiado optimistas). Para evitarlo, se utiliza el método set_out_sample_residuals() para almacenar residuos out-sample calculados mediante backtesting con un conjunto de validación.

Si además de los residuos, se le pasan las correspondientes predicciones al método set_out_sample_residuals(), entonces los residuos utilizados en el proceso de bootstrapping se seleccionan condicionados al rango de valores de las predicciones. Esto puede ayudar a conseguir intervalos con mayor covertura a la vez que se mantienen lo más estrechos posibles.

# Backtesting con los datos de validación para obtener residuos out-sample
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_train]))
_, predicciones_val = backtesting_forecaster(
    forecaster = forecaster,
    y          = datos.loc[:fin_validacion, 'users'],
    exog       = datos.loc[:fin_validacion, exog_cols],
    cv         = cv,
    metric     = 'mean_absolute_error',
)
# Distribución de los residuos out-sample
# ==============================================================================
residuals = datos.loc[predicciones_val.index, 'users'] - predicciones_val['pred']
print(pd.Series(np.where(residuals < 0, 'negative', 'positive')).value_counts())
plt.rcParams.update({'font.size': 8})
_ = plot_residuals(
        y_true = datos.loc[predicciones_val.index, 'users'],
        y_pred = predicciones_val['pred'],
        figsize=(7, 4)
    )
# Almacenar residuos out-sample en el forecaster
# ==============================================================================
forecaster.set_out_sample_residuals(
    y_true = datos.loc[predicciones_val.index, 'users'],
    y_pred = predicciones_val['pred']
)
  0%|          | 0/82 [00:00<?, ?it/s]  5%|▍         | 4/82 [00:00<00:02, 35.56it/s] 10%|▉         | 8/82 [00:00<00:02, 36.48it/s] 16%|█▌        | 13/82 [00:00<00:01, 39.10it/s] 21%|██        | 17/82 [00:00<00:01, 37.67it/s] 26%|██▌       | 21/82 [00:00<00:01, 36.67it/s] 32%|███▏      | 26/82 [00:00<00:01, 39.61it/s] 38%|███▊      | 31/82 [00:00<00:01, 41.36it/s] 44%|████▍     | 36/82 [00:00<00:01, 39.63it/s] 49%|████▉     | 40/82 [00:01<00:01, 39.30it/s] 54%|█████▎    | 44/82 [00:01<00:00, 39.05it/s] 59%|█████▊    | 48/82 [00:01<00:00, 38.33it/s] 65%|██████▍   | 53/82 [00:01<00:00, 39.56it/s] 70%|██████▉   | 57/82 [00:01<00:00, 38.67it/s] 76%|███████▌  | 62/82 [00:01<00:00, 39.29it/s] 82%|████████▏ | 67/82 [00:01<00:00, 40.05it/s] 87%|████████▋ | 71/82 [00:01<00:00, 39.65it/s] 93%|█████████▎| 76/82 [00:01<00:00, 40.42it/s] 99%|█████████▉| 81/82 [00:02<00:00, 39.21it/s]100%|██████████| 82/82 [00:02<00:00, 39.00it/s]
positive    1721
negative    1231
Name: count, dtype: int64

A continuación, se ejecuta el proceso de backtesting para estimar los intervalos de predicción en el conjunto de test. Se indica el argumento use_in_sample_residuals en False para que se utilicen los residuos out-sample almacenados previamente y use_binned_residuals para que el los residuos utilizados en se seleccionen condicionados al rango de valores de las predicciones.

# Backtesting con intervalos de predicción en test usando out-sample residuals
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_validacion]))
metrica, predicciones = backtesting_forecaster(
   forecaster              = forecaster,
   y                       = datos['users'],
   exog                    = datos[exog_cols],
   cv                      = cv,
   metric                  = 'mean_absolute_error',
   interval                = [5, 95],  # 90% intervalo de predicción
   interval_method         = 'conformal',
   use_in_sample_residuals = False,  # Usar out-sample residuals
   use_binned_residuals    = True,   # Usar residuos condicionados al valor predicho
)
predicciones.head(5)
# Cobertura del intervalo en los datos de test
# ==============================================================================
  0%|          | 0/81 [00:00<?, ?it/s]  6%|▌         | 5/81 [00:00<00:01, 43.33it/s] 12%|█▏        | 10/81 [00:00<00:01, 42.29it/s] 19%|█▊        | 15/81 [00:00<00:01, 43.32it/s] 25%|██▍       | 20/81 [00:00<00:01, 42.51it/s] 31%|███       | 25/81 [00:00<00:01, 40.56it/s] 37%|███▋      | 30/81 [00:00<00:01, 38.91it/s] 43%|████▎     | 35/81 [00:00<00:01, 41.54it/s] 49%|████▉     | 40/81 [00:00<00:01, 39.34it/s] 54%|█████▍    | 44/81 [00:01<00:00, 39.35it/s] 60%|██████    | 49/81 [00:01<00:00, 40.06it/s] 67%|██████▋   | 54/81 [00:01<00:00, 40.23it/s] 73%|███████▎  | 59/81 [00:01<00:00, 40.23it/s] 79%|███████▉  | 64/81 [00:01<00:00, 38.81it/s] 84%|████████▍ | 68/81 [00:01<00:00, 38.84it/s] 89%|████████▉ | 72/81 [00:01<00:00, 38.78it/s] 94%|█████████▍| 76/81 [00:01<00:00, 37.19it/s] 99%|█████████▉| 80/81 [00:02<00:00, 37.52it/s]100%|██████████| 81/81 [00:02<00:00, 39.56it/s]
pred lower_bound upper_bound
2012-09-01 00:00:00 135.743517 70.071757 201.415277
2012-09-01 01:00:00 107.238810 41.567050 172.910570
2012-09-01 02:00:00 76.290757 39.126126 113.455388
2012-09-01 03:00:00 40.206164 3.041533 77.370796
2012-09-01 04:00:00 18.001776 7.046713 28.956840

Explicabilidad del modelo

Debido a la naturaleza compleja de muchos de los actuales modelos de machine learning, a menudo funcionan como cajas negras, lo que dificulta entender por qué han hecho una predicción u otra. Las técnicas de explicabilidad pretenden desmitificar estos modelos, proporcionando información sobre su funcionamiento interno y ayudando a generar confianza, mejorar la transparencia y cumplir los requisitos normativos en diversos ámbitos. Mejorar la explicabilidad de los modelos no sólo ayuda a comprender su comportamiento, sino también a identificar sesgos, mejorar su rendimiento y permitir a las partes interesadas tomar decisiones más informadas basadas en los conocimientos del machine learning

Skforecast es compatible con algunos de los métodos de explicabilidad más populares: model-specific feature importances, SHAP values, and partial dependence plots.

# Crear y entrenar el forecaster
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor        = LGBMRegressor(**best_params),
    lags             = [1, 2, 3, 23, 24, 25, 167, 168, 169],
    window_features  = window_features,
    transformer_exog = transformer_exog,
    fit_kwargs       = {"categorical_feature": "auto"}
)
forecaster.fit(
    y    = datos.loc[:fin_validacion, 'users'],
    exog = datos.loc[:fin_validacion, exog_cols]
)
# Extraer importancia de los predictores
# ==============================================================================
importancia = forecaster.get_feature_importances()
importancia.head(10)
feature importance
0 lag_1 1012
8 lag_169 568
7 lag_168 556
1 lag_2 365
4 lag_24 358
6 lag_167 344
2 lag_3 325
3 lag_23 311
15 hour_sin 295
16 hour_cos 282

Shap values

Los valores SHAP (SHapley Additive exPlanations) son un método muy utilizado para explicar los modelos de machine learning, ya que ayudan a comprender cómo influyen las variables y los valores en las predicciones de forma visual y cuantitativa.

Se puede obtener un análisis SHAP a partir de modelos skforecast con sólo dos elementos:

  • El regresor interno del forecaster.

  • Las matrices de entrenamiento creadas a partir de la serie temporal y variables exógenas, utilizadas para ajustar el pronosticador.

Aprovechando estos dos componentes, los usuarios pueden crear explicaciones interpretables para sus modelos de skforecast. Estas explicaciones pueden utilizarse para verificar la fiabilidad del modelo, identificar los factores más significativos que contribuyen a las predicciones y comprender mejor la relación subyacente entre las variables de entrada y la variable objetivo.

# Matrices de entrenamiento utilizadas por el forecaster para entrenar el regresor
# ==============================================================================
X_train, y_train = forecaster.create_train_X_y(
                        y    = datos.loc[:fin_validacion, 'users'],
                        exog = datos.loc[:fin_validacion, exog_cols]
                    )
X_train.head(3)
y_train.head(3)
# Crear SHAP explainer (para modelos basados en árboles)
# ==============================================================================
explainer = shap.TreeExplainer(forecaster.regressor)

# Se selecciona una muestra del 50% de los datos para acelerar el cálculo
rng = np.random.default_rng(seed=785412)
sample = rng.choice(X_train.index, size=int(len(X_train)*0.5), replace=False)
X_train_sample = X_train.loc[sample, :]
shap_values = explainer.shap_values(X_train_sample)

# Backtesting indicando que se devuelvan los predictores
# ==============================================================================
cv = TimeSeriesFold(steps = 36, initial_train_size = len(datos.loc[:fin_validacion]))
metrica, predicciones = backtesting_forecaster(
   forecaster              = forecaster,
   y                       = datos['users'],
   exog                    = datos[exog_cols],
   cv                      = cv,
   metric                  = 'mean_absolute_error',
   return_predictors       =  True,
)

predicciones.head(3)

# Waterfall para una predicción concreta
# ==============================================================================
predicciones = predicciones.astype(datos[exog_cols].dtypes) # Asegurar tipos
iloc_predicted_date = predicciones.index.get_loc('2012-10-06 12:00:00')
shap_values_single = explainer(predicciones.iloc[:, 2:])
shap.plots.waterfall(shap_values_single[iloc_predicted_date], show=False)
fig, ax = plt.gcf(), plt.gca()
fig.set_size_inches(8, 5)
ax_list = fig.axes
ax = ax_list[0]
ax.tick_params(labelsize=8)
ax.set
plt.show()
  0%|          | 0/81 [00:00<?, ?it/s]  4%|▎         | 3/81 [00:00<00:03, 21.54it/s]  7%|▋         | 6/81 [00:00<00:03, 22.97it/s] 11%|█         | 9/81 [00:00<00:03, 20.25it/s] 15%|█▍        | 12/81 [00:00<00:03, 20.12it/s] 19%|█▊        | 15/81 [00:00<00:04, 16.39it/s] 22%|██▏       | 18/81 [00:00<00:03, 17.49it/s] 26%|██▌       | 21/81 [00:01<00:03, 18.63it/s] 28%|██▊       | 23/81 [00:01<00:03, 18.80it/s] 31%|███       | 25/81 [00:01<00:02, 18.98it/s] 33%|███▎      | 27/81 [00:01<00:02, 18.56it/s] 36%|███▌      | 29/81 [00:01<00:02, 18.82it/s] 38%|███▊      | 31/81 [00:01<00:02, 18.90it/s] 41%|████      | 33/81 [00:01<00:02, 19.00it/s] 43%|████▎     | 35/81 [00:01<00:02, 18.93it/s] 46%|████▌     | 37/81 [00:01<00:02, 19.16it/s] 48%|████▊     | 39/81 [00:02<00:02, 18.98it/s] 52%|█████▏    | 42/81 [00:02<00:02, 19.08it/s] 56%|█████▌    | 45/81 [00:02<00:01, 19.66it/s] 58%|█████▊    | 47/81 [00:02<00:01, 19.73it/s] 60%|██████    | 49/81 [00:02<00:01, 19.69it/s] 63%|██████▎   | 51/81 [00:02<00:01, 19.09it/s] 65%|██████▌   | 53/81 [00:02<00:01, 18.45it/s] 68%|██████▊   | 55/81 [00:02<00:01, 18.62it/s] 72%|███████▏  | 58/81 [00:03<00:01, 18.94it/s] 75%|███████▌  | 61/81 [00:03<00:01, 19.69it/s] 78%|███████▊  | 63/81 [00:03<00:00, 19.46it/s] 81%|████████▏ | 66/81 [00:03<00:00, 20.21it/s] 85%|████████▌ | 69/81 [00:03<00:00, 19.86it/s] 88%|████████▊ | 71/81 [00:03<00:00, 19.32it/s] 90%|█████████ | 73/81 [00:03<00:00, 19.45it/s] 93%|█████████▎| 75/81 [00:03<00:00, 19.59it/s] 96%|█████████▋| 78/81 [00:04<00:00, 20.75it/s]100%|██████████| 81/81 [00:04<00:00, 20.47it/s]100%|██████████| 81/81 [00:04<00:00, 19.34it/s]

# Force plot para una predicción concreta
# ==============================================================================
shap.force_plot(
    base_value  = shap_values_single.base_values[iloc_predicted_date],
    shap_values = shap_values_single.values[iloc_predicted_date],
    features    = predicciones.iloc[iloc_predicted_date, 2:],
)
Visualization omitted, Javascript library not loaded!
Have you run `initjs()` in this notebook? If this notebook was from another user you must also trust this notebook (File -> Trust notebook). If you are viewing this notebook on github the Javascript has been stripped for security. If you are using JupyterLab this error is because a JupyterLab extension has not yet been written.

XGBoost, CatBoost, HistGradientBoostingRegressor

Desde el éxito del Gradient Boosting como algoritmo de machine learning, se han desarrollado varias implementaciones. Además de LightGBM, otras tres muy populares son: XGBoost, CatBoost e HistGradientBoostingRegressor. Todas ellas son compatibles con skforecast.

Las siguientes secciones muestran cómo utilizar estas implementaciones para crear modelos de forecasting, haciendo hincapié en el uso de su soporte nativo para características categóricas. Esta vez se utiliza una estrategia de validación one-step-ahead para acelerar la búsqueda de hiperparámetros.

# Particiones utilizadas para la búsqueda de hiperparámetros y backtesting
# ==============================================================================
cv_search = OneStepAheadFold(initial_train_size = len(datos_train))
cv_backtesting = TimeSeriesFold(steps = 36, initial_train_size = len(datos[:fin_validacion]))

XGBoost

# Encoding ordinal + conversión a tipo category
# ==============================================================================
pipeline_categorical = make_pipeline(
        OrdinalEncoder(
            dtype=int,
            handle_unknown="use_encoded_value",
            unknown_value=-1,
            encoded_missing_value=-1
        ),
        FunctionTransformer(
            func=lambda x: x.astype('category'),
            feature_names_out= 'one-to-one'
        )
    )

transformer_exog = make_column_transformer(
    (
        pipeline_categorical,
        make_column_selector(dtype_exclude=np.number)
    ),
    remainder="passthrough",
    verbose_feature_names_out=False,
).set_output(transform="pandas")
# Crear forecaster
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor = XGBRegressor(tree_method='hist', enable_categorical=True, random_state=123),
    lags = 24,
    window_features  = window_features,
    transformer_exog = transformer_exog
)
# Búsqueda de hiperparámetros
# ==============================================================================
lags_grid = [48, 72, [1, 2, 3, 23, 24, 25, 167, 168, 169]]

def search_space(trial):
    search_space  = {
        'n_estimators'    : trial.suggest_int('n_estimators', 300, 1000, step=100),
        'max_depth'       : trial.suggest_int('max_depth', 3, 10),
        'learning_rate'   : trial.suggest_float('learning_rate', 0.01, 1),
        'subsample'       : trial.suggest_float('subsample', 0.1, 1),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.1, 1),
        'gamma'           : trial.suggest_float('gamma', 0, 1),
        'reg_alpha'       : trial.suggest_float('reg_alpha', 0, 1),
        'reg_lambda'      : trial.suggest_float('reg_lambda', 0, 1),
        'lags'            : trial.suggest_categorical('lags', lags_grid)
    } 
    return search_space

results_search, frozen_trial = bayesian_search_forecaster(
    forecaster   = forecaster,
    y            = datos.loc[:fin_validacion, 'users'],
    exog         = datos.loc[:fin_validacion, exog_cols],
    cv           = cv_search,
    search_space = search_space,
    metric       = 'mean_absolute_error',
    n_trials     = 20,
    n_jobs       = 1
)
# Backtesting con datos de test
# ==============================================================================
metrica_xgboost, predicciones = backtesting_forecaster(
    forecaster = forecaster,
    y          = datos['users'],
    exog       = datos[exog_cols],
    cv         = cv_backtesting,
    metric     = 'mean_absolute_error',
    n_jobs     = 1
)
metrica_xgboost
╭─────────────────────────── OneStepAheadValidationWarning ────────────────────────────╮
 One-step-ahead predictions are used for faster model comparison, but they may not    
 fully represent multi-step prediction performance. It is recommended to backtest the 
 final model for a more accurate multi-step performance estimate.                     
                                                                                      
 Category : OneStepAheadValidationWarning                                             
 Location : C:\Users\WINDOWS                                                          
 11\Documents\.virtualenvs\r-tensorflow\lib\site-packages\skforecast\model_selection\ 
 _utils.py:693                                                                        
 Suppress : warnings.simplefilter('ignore', category=OneStepAheadValidationWarning)   
╰──────────────────────────────────────────────────────────────────────────────────────╯
  0%|          | 0/20 [00:00<?, ?it/s]Best trial: 0. Best value: 49.8167:   0%|          | 0/20 [00:01<?, ?it/s]Best trial: 0. Best value: 49.8167:   5%|▌         | 1/20 [00:01<00:23,  1.22s/it]Best trial: 1. Best value: 48.2996:   5%|▌         | 1/20 [00:02<00:23,  1.22s/it]Best trial: 1. Best value: 48.2996:  10%|█         | 2/20 [00:02<00:17,  1.01it/s]Best trial: 1. Best value: 48.2996:  10%|█         | 2/20 [00:04<00:17,  1.01it/s]Best trial: 1. Best value: 48.2996:  15%|█▌        | 3/20 [00:04<00:26,  1.53s/it]Best trial: 1. Best value: 48.2996:  15%|█▌        | 3/20 [00:04<00:26,  1.53s/it]Best trial: 1. Best value: 48.2996:  20%|██        | 4/20 [00:04<00:18,  1.17s/it]Best trial: 1. Best value: 48.2996:  20%|██        | 4/20 [00:05<00:18,  1.17s/it]Best trial: 1. Best value: 48.2996:  25%|██▌       | 5/20 [00:05<00:17,  1.13s/it]Best trial: 1. Best value: 48.2996:  25%|██▌       | 5/20 [00:06<00:17,  1.13s/it]Best trial: 1. Best value: 48.2996:  30%|███       | 6/20 [00:06<00:14,  1.07s/it]Best trial: 1. Best value: 48.2996:  30%|███       | 6/20 [00:08<00:14,  1.07s/it]Best trial: 1. Best value: 48.2996:  35%|███▌      | 7/20 [00:08<00:14,  1.10s/it]Best trial: 1. Best value: 48.2996:  35%|███▌      | 7/20 [00:08<00:14,  1.10s/it]Best trial: 1. Best value: 48.2996:  40%|████      | 8/20 [00:08<00:10,  1.12it/s]Best trial: 1. Best value: 48.2996:  40%|████      | 8/20 [00:09<00:10,  1.12it/s]Best trial: 1. Best value: 48.2996:  45%|████▌     | 9/20 [00:09<00:09,  1.15it/s]Best trial: 1. Best value: 48.2996:  45%|████▌     | 9/20 [00:10<00:09,  1.15it/s]Best trial: 1. Best value: 48.2996:  50%|█████     | 10/20 [00:10<00:09,  1.07it/s]Best trial: 1. Best value: 48.2996:  50%|█████     | 10/20 [00:12<00:09,  1.07it/s]Best trial: 1. Best value: 48.2996:  55%|█████▌    | 11/20 [00:12<00:11,  1.29s/it]Best trial: 11. Best value: 48.1738:  55%|█████▌    | 11/20 [00:12<00:11,  1.29s/it]Best trial: 11. Best value: 48.1738:  60%|██████    | 12/20 [00:12<00:08,  1.03s/it]Best trial: 12. Best value: 41.4968:  60%|██████    | 12/20 [00:13<00:08,  1.03s/it]Best trial: 12. Best value: 41.4968:  65%|██████▌   | 13/20 [00:13<00:05,  1.18it/s]Best trial: 12. Best value: 41.4968:  65%|██████▌   | 13/20 [00:13<00:05,  1.18it/s]Best trial: 12. Best value: 41.4968:  70%|███████   | 14/20 [00:13<00:04,  1.40it/s]Best trial: 12. Best value: 41.4968:  70%|███████   | 14/20 [00:14<00:04,  1.40it/s]Best trial: 12. Best value: 41.4968:  75%|███████▌  | 15/20 [00:14<00:03,  1.60it/s]Best trial: 12. Best value: 41.4968:  75%|███████▌  | 15/20 [00:14<00:03,  1.60it/s]Best trial: 12. Best value: 41.4968:  80%|████████  | 16/20 [00:14<00:02,  1.67it/s]Best trial: 12. Best value: 41.4968:  80%|████████  | 16/20 [00:15<00:02,  1.67it/s]Best trial: 12. Best value: 41.4968:  85%|████████▌ | 17/20 [00:15<00:01,  1.92it/s]Best trial: 12. Best value: 41.4968:  85%|████████▌ | 17/20 [00:15<00:01,  1.92it/s]Best trial: 12. Best value: 41.4968:  90%|█████████ | 18/20 [00:15<00:01,  1.95it/s]Best trial: 12. Best value: 41.4968:  90%|█████████ | 18/20 [00:16<00:01,  1.95it/s]Best trial: 12. Best value: 41.4968:  95%|█████████▌| 19/20 [00:16<00:00,  1.46it/s]Best trial: 12. Best value: 41.4968:  95%|█████████▌| 19/20 [00:17<00:00,  1.46it/s]Best trial: 12. Best value: 41.4968: 100%|██████████| 20/20 [00:17<00:00,  1.61it/s]Best trial: 12. Best value: 41.4968: 100%|██████████| 20/20 [00:17<00:00,  1.17it/s]
`Forecaster` refitted using the best-found lags and parameters, and the whole data set: 
  Lags: [  1   2   3  23  24  25 167 168 169] 
  Parameters: {'n_estimators': 700, 'max_depth': 3, 'learning_rate': 0.011395672616912125, 'subsample': 0.7742028850835123, 'colsample_bytree': 0.7584816723057501, 'gamma': 0.09509087781875392, 'reg_alpha': 0.9424003414224777, 'reg_lambda': 0.3349293310460368}
  One-step-ahead metric: 41.49678039550781
  0%|          | 0/81 [00:00<?, ?it/s] 10%|▉         | 8/81 [00:00<00:00, 77.02it/s] 20%|█▉        | 16/81 [00:00<00:00, 74.11it/s] 30%|██▉       | 24/81 [00:00<00:00, 72.53it/s] 40%|███▉      | 32/81 [00:00<00:00, 70.13it/s] 49%|████▉     | 40/81 [00:00<00:00, 71.55it/s] 59%|█████▉    | 48/81 [00:00<00:00, 72.73it/s] 69%|██████▉   | 56/81 [00:00<00:00, 73.24it/s] 79%|███████▉  | 64/81 [00:00<00:00, 72.35it/s] 89%|████████▉ | 72/81 [00:00<00:00, 73.07it/s] 99%|█████████▉| 80/81 [00:01<00:00, 60.63it/s]100%|██████████| 81/81 [00:01<00:00, 68.33it/s]
mean_absolute_error
0 56.446943

HistGradientBoostingRegressor

Al crear un forecaster utilizando HistogramGradientBoosting, los nombres de las columnas categóricas deben especificarse durante la instanciación del regresor pasándolos como una lista al argumento categorical_feature.

# Codificación ordinal
# ==============================================================================
# Se utiliza un ColumnTransformer para transformar variables categóricas
# (no numéricas) utilizando codificación ordinal. Las variables numéricas
# no se modifican. Los valores missing se codifican como -1. Si se encuentra una
# nueva categoría en el conjunto de test, se codifica como -1.
categorical_features = ['weather']
transformer_exog = make_column_transformer(
    (
        OrdinalEncoder(
            dtype=int,
            handle_unknown="use_encoded_value",
            unknown_value=-1,
            encoded_missing_value=-1
        ),
        categorical_features
    ),
    remainder="passthrough",
    verbose_feature_names_out=False,
).set_output(transform="pandas")
# Crear forecaster
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor = HistGradientBoostingRegressor(
                    categorical_features=categorical_features,
                    random_state=123
                ),
    lags = 24,
    window_features  = window_features,
    transformer_exog = transformer_exog
)
# Busqueda de hiperparámetros
# ==============================================================================
lags_grid = [48, 72, [1, 2, 3, 23, 24, 25, 167, 168, 169]]

def search_space(trial):
    search_space  = {
        'max_iter'          : trial.suggest_int('max_iter', 300, 1000, step=100),
        'max_depth'         : trial.suggest_int('max_depth', 3, 10),
        'learning_rate'     : trial.suggest_float('learning_rate', 0.01, 1),
        'min_samples_leaf'  : trial.suggest_int('min_samples_leaf', 1, 20),
        'l2_regularization' : trial.suggest_float('l2_regularization', 0, 1),
        'lags'              : trial.suggest_categorical('lags', lags_grid)
    } 
    return search_space

results_search, frozen_trial = bayesian_search_forecaster(
    forecaster    = forecaster,
    y             = datos.loc[:fin_validacion, 'users'],
    exog          = datos.loc[:fin_validacion, exog_cols],
    cv            = cv_search,
    search_space  = search_space,
    metric        = 'mean_absolute_error',
    n_trials      = 20
)
# Backtesting con datos de test
# ==============================================================================
metrica_histgb, predicciones = backtesting_forecaster(
    forecaster = forecaster,
    y          = datos['users'],
    exog       = datos[exog_cols],
    cv         = cv_backtesting,
    metric     = 'mean_absolute_error',
    n_jobs     = 1
)
metrica_histgb
╭─────────────────────────── OneStepAheadValidationWarning ────────────────────────────╮
 One-step-ahead predictions are used for faster model comparison, but they may not    
 fully represent multi-step prediction performance. It is recommended to backtest the 
 final model for a more accurate multi-step performance estimate.                     
                                                                                      
 Category : OneStepAheadValidationWarning                                             
 Location : C:\Users\WINDOWS                                                          
 11\Documents\.virtualenvs\r-tensorflow\lib\site-packages\skforecast\model_selection\ 
 _utils.py:693                                                                        
 Suppress : warnings.simplefilter('ignore', category=OneStepAheadValidationWarning)   
╰──────────────────────────────────────────────────────────────────────────────────────╯
  0%|          | 0/20 [00:00<?, ?it/s]Best trial: 0. Best value: 42.2211:   0%|          | 0/20 [00:00<?, ?it/s]Best trial: 0. Best value: 42.2211:   5%|▌         | 1/20 [00:00<00:04,  3.84it/s]Best trial: 1. Best value: 42.0173:   5%|▌         | 1/20 [00:00<00:04,  3.84it/s]Best trial: 1. Best value: 42.0173:  10%|█         | 2/20 [00:00<00:03,  4.93it/s]Best trial: 1. Best value: 42.0173:  10%|█         | 2/20 [00:00<00:03,  4.93it/s]Best trial: 1. Best value: 42.0173:  15%|█▌        | 3/20 [00:00<00:02,  5.93it/s]Best trial: 1. Best value: 42.0173:  15%|█▌        | 3/20 [00:00<00:02,  5.93it/s]Best trial: 1. Best value: 42.0173:  20%|██        | 4/20 [00:00<00:02,  5.62it/s]Best trial: 1. Best value: 42.0173:  20%|██        | 4/20 [00:00<00:02,  5.62it/s]Best trial: 1. Best value: 42.0173:  25%|██▌       | 5/20 [00:00<00:02,  5.67it/s]Best trial: 1. Best value: 42.0173:  25%|██▌       | 5/20 [00:01<00:02,  5.67it/s]Best trial: 1. Best value: 42.0173:  30%|███       | 6/20 [00:01<00:02,  5.84it/s]Best trial: 1. Best value: 42.0173:  30%|███       | 6/20 [00:01<00:02,  5.84it/s]Best trial: 1. Best value: 42.0173:  35%|███▌      | 7/20 [00:01<00:02,  4.82it/s]Best trial: 1. Best value: 42.0173:  35%|███▌      | 7/20 [00:01<00:02,  4.82it/s]Best trial: 1. Best value: 42.0173:  40%|████      | 8/20 [00:01<00:02,  5.65it/s]Best trial: 1. Best value: 42.0173:  40%|████      | 8/20 [00:01<00:02,  5.65it/s]Best trial: 9. Best value: 40.2714:  45%|████▌     | 9/20 [00:02<00:01,  5.65it/s]Best trial: 9. Best value: 40.2714:  50%|█████     | 10/20 [00:02<00:03,  2.77it/s]Best trial: 9. Best value: 40.2714:  50%|█████     | 10/20 [00:03<00:03,  2.77it/s]Best trial: 9. Best value: 40.2714:  55%|█████▌    | 11/20 [00:03<00:03,  2.49it/s]Best trial: 9. Best value: 40.2714:  55%|█████▌    | 11/20 [00:04<00:03,  2.49it/s]Best trial: 9. Best value: 40.2714:  60%|██████    | 12/20 [00:04<00:05,  1.57it/s]Best trial: 12. Best value: 40.2045:  60%|██████    | 12/20 [00:05<00:05,  1.57it/s]Best trial: 12. Best value: 40.2045:  65%|██████▌   | 13/20 [00:05<00:06,  1.13it/s]Best trial: 12. Best value: 40.2045:  65%|██████▌   | 13/20 [00:06<00:06,  1.13it/s]Best trial: 12. Best value: 40.2045:  70%|███████   | 14/20 [00:06<00:04,  1.47it/s]Best trial: 12. Best value: 40.2045:  70%|███████   | 14/20 [00:06<00:04,  1.47it/s]Best trial: 12. Best value: 40.2045:  75%|███████▌  | 15/20 [00:06<00:02,  1.70it/s]Best trial: 12. Best value: 40.2045:  75%|███████▌  | 15/20 [00:06<00:02,  1.70it/s]Best trial: 12. Best value: 40.2045:  80%|████████  | 16/20 [00:06<00:02,  1.99it/s]Best trial: 12. Best value: 40.2045:  80%|████████  | 16/20 [00:07<00:02,  1.99it/s]Best trial: 12. Best value: 40.2045:  85%|████████▌ | 17/20 [00:07<00:01,  1.76it/s]Best trial: 12. Best value: 40.2045:  85%|████████▌ | 17/20 [00:07<00:01,  1.76it/s]Best trial: 12. Best value: 40.2045:  90%|█████████ | 18/20 [00:07<00:00,  2.25it/s]Best trial: 12. Best value: 40.2045:  90%|█████████ | 18/20 [00:07<00:00,  2.25it/s]Best trial: 12. Best value: 40.2045:  95%|█████████▌| 19/20 [00:07<00:00,  2.59it/s]Best trial: 12. Best value: 40.2045:  95%|█████████▌| 19/20 [00:08<00:00,  2.59it/s]Best trial: 12. Best value: 40.2045: 100%|██████████| 20/20 [00:08<00:00,  2.36it/s]Best trial: 12. Best value: 40.2045: 100%|██████████| 20/20 [00:08<00:00,  2.38it/s]
`Forecaster` refitted using the best-found lags and parameters, and the whole data set: 
  Lags: [  1   2   3  23  24  25 167 168 169] 
  Parameters: {'max_iter': 1000, 'max_depth': 10, 'learning_rate': 0.014839147189277493, 'min_samples_leaf': 19, 'l2_regularization': 0.01532529008030381}
  One-step-ahead metric: 40.20446907142766
  0%|          | 0/81 [00:00<?, ?it/s]  1%|          | 1/81 [00:00<00:26,  2.97it/s]  2%|▏         | 2/81 [00:00<00:24,  3.22it/s]  4%|▎         | 3/81 [00:00<00:23,  3.27it/s]  5%|▍         | 4/81 [00:01<00:23,  3.29it/s]  6%|▌         | 5/81 [00:01<00:23,  3.18it/s]  7%|▋         | 6/81 [00:01<00:23,  3.15it/s]  9%|▊         | 7/81 [00:02<00:22,  3.27it/s] 10%|▉         | 8/81 [00:02<00:22,  3.18it/s] 11%|█         | 9/81 [00:02<00:22,  3.16it/s] 12%|█▏        | 10/81 [00:03<00:22,  3.15it/s] 14%|█▎        | 11/81 [00:03<00:22,  3.09it/s] 15%|█▍        | 12/81 [00:03<00:21,  3.17it/s] 16%|█▌        | 13/81 [00:04<00:22,  3.07it/s] 17%|█▋        | 14/81 [00:04<00:21,  3.11it/s] 19%|█▊        | 15/81 [00:04<00:21,  3.03it/s] 20%|█▉        | 16/81 [00:05<00:21,  3.07it/s] 21%|██        | 17/81 [00:05<00:20,  3.09it/s] 22%|██▏       | 18/81 [00:05<00:20,  3.14it/s] 23%|██▎       | 19/81 [00:06<00:19,  3.24it/s] 25%|██▍       | 20/81 [00:06<00:18,  3.25it/s] 26%|██▌       | 21/81 [00:06<00:18,  3.17it/s] 27%|██▋       | 22/81 [00:06<00:18,  3.14it/s] 28%|██▊       | 23/81 [00:07<00:18,  3.20it/s] 30%|██▉       | 24/81 [00:07<00:17,  3.24it/s] 31%|███       | 25/81 [00:07<00:17,  3.22it/s] 32%|███▏      | 26/81 [00:08<00:16,  3.36it/s] 33%|███▎      | 27/81 [00:08<00:16,  3.31it/s] 35%|███▍      | 28/81 [00:08<00:16,  3.27it/s] 36%|███▌      | 29/81 [00:09<00:16,  3.11it/s] 37%|███▋      | 30/81 [00:09<00:15,  3.20it/s] 38%|███▊      | 31/81 [00:09<00:15,  3.22it/s] 40%|███▉      | 32/81 [00:10<00:15,  3.22it/s] 41%|████      | 33/81 [00:10<00:15,  3.18it/s] 42%|████▏     | 34/81 [00:10<00:14,  3.17it/s] 43%|████▎     | 35/81 [00:11<00:14,  3.17it/s] 44%|████▍     | 36/81 [00:11<00:13,  3.26it/s] 46%|████▌     | 37/81 [00:11<00:14,  3.08it/s] 47%|████▋     | 38/81 [00:11<00:13,  3.16it/s] 48%|████▊     | 39/81 [00:12<00:13,  3.17it/s] 49%|████▉     | 40/81 [00:12<00:12,  3.19it/s] 51%|█████     | 41/81 [00:12<00:12,  3.21it/s] 52%|█████▏    | 42/81 [00:13<00:12,  3.25it/s] 53%|█████▎    | 43/81 [00:13<00:11,  3.24it/s] 54%|█████▍    | 44/81 [00:13<00:11,  3.28it/s] 56%|█████▌    | 45/81 [00:14<00:11,  3.19it/s] 57%|█████▋    | 46/81 [00:14<00:11,  3.14it/s] 58%|█████▊    | 47/81 [00:14<00:10,  3.15it/s] 59%|█████▉    | 48/81 [00:15<00:10,  3.13it/s] 60%|██████    | 49/81 [00:15<00:09,  3.21it/s] 62%|██████▏   | 50/81 [00:15<00:09,  3.16it/s] 63%|██████▎   | 51/81 [00:16<00:09,  3.13it/s] 64%|██████▍   | 52/81 [00:16<00:09,  3.09it/s] 65%|██████▌   | 53/81 [00:16<00:09,  3.09it/s] 67%|██████▋   | 54/81 [00:16<00:08,  3.23it/s] 68%|██████▊   | 55/81 [00:17<00:08,  3.19it/s] 69%|██████▉   | 56/81 [00:17<00:07,  3.17it/s] 70%|███████   | 57/81 [00:17<00:07,  3.12it/s] 72%|███████▏  | 58/81 [00:18<00:07,  3.14it/s] 73%|███████▎  | 59/81 [00:18<00:06,  3.26it/s] 74%|███████▍  | 60/81 [00:18<00:06,  3.15it/s] 75%|███████▌  | 61/81 [00:19<00:06,  3.09it/s] 77%|███████▋  | 62/81 [00:19<00:06,  3.08it/s] 78%|███████▊  | 63/81 [00:19<00:05,  3.22it/s] 79%|███████▉  | 64/81 [00:20<00:05,  3.19it/s] 80%|████████  | 65/81 [00:20<00:04,  3.21it/s] 81%|████████▏ | 66/81 [00:20<00:04,  3.15it/s] 83%|████████▎ | 67/81 [00:21<00:04,  3.12it/s] 84%|████████▍ | 68/81 [00:21<00:04,  3.14it/s] 85%|████████▌ | 69/81 [00:21<00:03,  3.05it/s] 86%|████████▋ | 70/81 [00:22<00:03,  3.09it/s] 88%|████████▊ | 71/81 [00:22<00:03,  3.16it/s] 89%|████████▉ | 72/81 [00:22<00:02,  3.22it/s] 90%|█████████ | 73/81 [00:22<00:02,  3.27it/s] 91%|█████████▏| 74/81 [00:23<00:02,  3.19it/s] 93%|█████████▎| 75/81 [00:23<00:01,  3.08it/s] 94%|█████████▍| 76/81 [00:23<00:01,  3.15it/s] 95%|█████████▌| 77/81 [00:24<00:01,  3.15it/s] 96%|█████████▋| 78/81 [00:24<00:00,  3.16it/s] 98%|█████████▊| 79/81 [00:24<00:00,  3.28it/s] 99%|█████████▉| 80/81 [00:25<00:00,  3.24it/s]100%|██████████| 81/81 [00:25<00:00,  3.66it/s]100%|██████████| 81/81 [00:25<00:00,  3.19it/s]
mean_absolute_error
0 46.617601

CatBoost

Desafortunadamente, la versión actual de skforecast no es compatible con el manejo nativo de varaibles categóricas de CatBoost. El problema surge porque CatBoost sólo acepta variables categóricas codificadas como enteros, mientras que skforecast convierte los datos de entrada a float para utilizar matrices numpy y así acelerar el proceso. Para evitar esta limitación, es necesario aplicar one-hot encoding o label encoding a las variables categóricas antes de utilizarlas con CatBoost.

# One hot encoding
# ==============================================================================
one_hot_encoder = make_column_transformer(
    (
        OneHotEncoder(sparse_output=False, drop='if_binary'),
        make_column_selector(dtype_exclude=np.number),
    ),
    remainder="passthrough",
    verbose_feature_names_out=False,
).set_output(transform="pandas")

# Crear forecaster
# ==============================================================================
forecaster = ForecasterRecursive(
    regressor = CatBoostRegressor(
                    random_state=123, 
                    silent=True, 
                    allow_writing_files=False,
                    boosting_type = 'Plain',         # Faster training
                    leaf_estimation_iterations = 3,  # Faster training
                ),
    lags = 24,
    window_features = window_features,
    transformer_exog = one_hot_encoder
)
# Búsqueda de hiperparámetros
# ==============================================================================
lags_grid = [48, 72, [1, 2, 3, 23, 24, 25, 167, 168, 169]]

def search_space(trial):
    search_space  = {
        'n_estimators'  : trial.suggest_int('n_estimators', 100, 1000, step=100),
        'max_depth'     : trial.suggest_int('max_depth', 3, 10),
        'learning_rate' : trial.suggest_float('learning_rate', 0.01, 1),
        'lags'          : trial.suggest_categorical('lags', lags_grid)
    } 
    return search_space

results_search, frozen_trial = bayesian_search_forecaster(
    forecaster    = forecaster,
    y             = datos.loc[:fin_validacion, 'users'],
    exog          = datos.loc[:fin_validacion, exog_cols],
    cv            = cv_search,
    search_space  = search_space,
    metric        = 'mean_absolute_error',
    n_trials      = 20
)
# Backtesting con datos de test
# ==============================================================================
metrica_catboost, predicciones = backtesting_forecaster(
    forecaster = forecaster,
    y          = datos['users'],
    exog       = datos[exog_cols],
    cv         = cv_backtesting,
    metric     = 'mean_absolute_error',
    n_jobs     = 1
)
metrica_catboost
╭─────────────────────────── OneStepAheadValidationWarning ────────────────────────────╮
 One-step-ahead predictions are used for faster model comparison, but they may not    
 fully represent multi-step prediction performance. It is recommended to backtest the 
 final model for a more accurate multi-step performance estimate.                     
                                                                                      
 Category : OneStepAheadValidationWarning                                             
 Location : C:\Users\WINDOWS                                                          
 11\Documents\.virtualenvs\r-tensorflow\lib\site-packages\skforecast\model_selection\ 
 _utils.py:693                                                                        
 Suppress : warnings.simplefilter('ignore', category=OneStepAheadValidationWarning)   
╰──────────────────────────────────────────────────────────────────────────────────────╯
  0%|          | 0/20 [00:00<?, ?it/s]Best trial: 0. Best value: 41.6662:   0%|          | 0/20 [00:02<?, ?it/s]Best trial: 0. Best value: 41.6662:   5%|▌         | 1/20 [00:02<00:44,  2.32s/it]Best trial: 0. Best value: 41.6662:   5%|▌         | 1/20 [00:07<00:44,  2.32s/it]Best trial: 0. Best value: 41.6662:  10%|█         | 2/20 [00:07<01:07,  3.73s/it]Best trial: 0. Best value: 41.6662:  10%|█         | 2/20 [00:08<01:07,  3.73s/it]Best trial: 0. Best value: 41.6662:  15%|█▌        | 3/20 [00:08<00:42,  2.51s/it]Best trial: 0. Best value: 41.6662:  15%|█▌        | 3/20 [00:10<00:42,  2.51s/it]Best trial: 0. Best value: 41.6662:  20%|██        | 4/20 [00:10<00:42,  2.64s/it]Best trial: 0. Best value: 41.6662:  20%|██        | 4/20 [00:12<00:42,  2.64s/it]Best trial: 0. Best value: 41.6662:  25%|██▌       | 5/20 [00:12<00:35,  2.37s/it]Best trial: 5. Best value: 38.8355:  25%|██▌       | 5/20 [00:13<00:35,  2.37s/it]Best trial: 5. Best value: 38.8355:  30%|███       | 6/20 [00:13<00:23,  1.69s/it]Best trial: 5. Best value: 38.8355:  30%|███       | 6/20 [00:38<00:23,  1.69s/it]Best trial: 5. Best value: 38.8355:  35%|███▌      | 7/20 [00:38<02:00,  9.29s/it]Best trial: 5. Best value: 38.8355:  35%|███▌      | 7/20 [00:39<02:00,  9.29s/it]Best trial: 5. Best value: 38.8355:  40%|████      | 8/20 [00:39<01:21,  6.77s/it]Best trial: 5. Best value: 38.8355:  40%|████      | 8/20 [00:42<01:21,  6.77s/it]Best trial: 5. Best value: 38.8355:  45%|████▌     | 9/20 [00:42<01:01,  5.62s/it]Best trial: 5. Best value: 38.8355:  45%|████▌     | 9/20 [00:44<01:01,  5.62s/it]Best trial: 5. Best value: 38.8355:  50%|█████     | 10/20 [00:44<00:43,  4.33s/it]Best trial: 5. Best value: 38.8355:  50%|█████     | 10/20 [00:44<00:43,  4.33s/it]Best trial: 5. Best value: 38.8355:  55%|█████▌    | 11/20 [00:44<00:27,  3.10s/it]Best trial: 5. Best value: 38.8355:  55%|█████▌    | 11/20 [00:45<00:27,  3.10s/it]Best trial: 5. Best value: 38.8355:  60%|██████    | 12/20 [00:45<00:19,  2.41s/it]Best trial: 5. Best value: 38.8355:  60%|██████    | 12/20 [00:49<00:19,  2.41s/it]Best trial: 5. Best value: 38.8355:  65%|██████▌   | 13/20 [00:49<00:20,  2.97s/it]Best trial: 5. Best value: 38.8355:  65%|██████▌   | 13/20 [00:54<00:20,  2.97s/it]Best trial: 5. Best value: 38.8355:  70%|███████   | 14/20 [00:54<00:20,  3.49s/it]Best trial: 5. Best value: 38.8355:  70%|███████   | 14/20 [00:54<00:20,  3.49s/it]Best trial: 5. Best value: 38.8355:  75%|███████▌  | 15/20 [00:54<00:13,  2.69s/it]Best trial: 5. Best value: 38.8355:  75%|███████▌  | 15/20 [00:57<00:13,  2.69s/it]Best trial: 5. Best value: 38.8355:  80%|████████  | 16/20 [00:57<00:10,  2.52s/it]Best trial: 5. Best value: 38.8355:  80%|████████  | 16/20 [00:59<00:10,  2.52s/it]Best trial: 5. Best value: 38.8355:  85%|████████▌ | 17/20 [00:59<00:07,  2.47s/it]Best trial: 5. Best value: 38.8355:  85%|████████▌ | 17/20 [01:02<00:07,  2.47s/it]Best trial: 5. Best value: 38.8355:  90%|█████████ | 18/20 [01:02<00:05,  2.67s/it]Best trial: 5. Best value: 38.8355:  90%|█████████ | 18/20 [01:06<00:05,  2.67s/it]Best trial: 5. Best value: 38.8355:  95%|█████████▌| 19/20 [01:06<00:02,  2.95s/it]Best trial: 5. Best value: 38.8355:  95%|█████████▌| 19/20 [01:08<00:02,  2.95s/it]Best trial: 5. Best value: 38.8355: 100%|██████████| 20/20 [01:08<00:00,  2.76s/it]Best trial: 5. Best value: 38.8355: 100%|██████████| 20/20 [01:08<00:00,  3.43s/it]
`Forecaster` refitted using the best-found lags and parameters, and the whole data set: 
  Lags: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48] 
  Parameters: {'n_estimators': 100, 'max_depth': 6, 'learning_rate': 0.4365541356963474}
  One-step-ahead metric: 38.83545732277291
  0%|          | 0/81 [00:00<?, ?it/s]  6%|▌         | 5/81 [00:00<00:01, 48.94it/s] 14%|█▎        | 11/81 [00:00<00:01, 50.35it/s] 21%|██        | 17/81 [00:00<00:01, 50.53it/s] 28%|██▊       | 23/81 [00:00<00:01, 49.64it/s] 35%|███▍      | 28/81 [00:00<00:01, 48.57it/s] 41%|████      | 33/81 [00:00<00:01, 46.09it/s] 48%|████▊     | 39/81 [00:00<00:00, 47.88it/s] 56%|█████▌    | 45/81 [00:00<00:00, 48.70it/s] 63%|██████▎   | 51/81 [00:01<00:00, 49.40it/s] 70%|███████   | 57/81 [00:01<00:00, 49.75it/s] 78%|███████▊  | 63/81 [00:01<00:00, 50.13it/s] 85%|████████▌ | 69/81 [00:01<00:00, 50.18it/s] 93%|█████████▎| 75/81 [00:01<00:00, 50.47it/s]100%|██████████| 81/81 [00:01<00:00, 51.39it/s]100%|██████████| 81/81 [00:01<00:00, 49.73it/s]
mean_absolute_error
0 50.808368

Conclusión

  • Utilizar modelos Gradient Boosting en problemas de forecasting es muy sencillo gracias a las funcionalidades ofrecidas por skforecast.

  • Como se ha mostrado en este documento, la incorporación de variables exógenas como predictores puede mejorar en gran medida la capacidad predictiva del modelo.

  • Las variables categóricas pueden incluirse facilmente como variables exógenas sin necesidad de preprocesamiento. Esto es posible gracias al soporte nativo para variables categóricas ofrecido por LightGBM, XGBoost y HistGradientBoostingRegressor.

metricas = pd.concat(
    [metrica_baseline, metrica_lgbm, metrica_xgboost, metrica_histgb, metrica_catboost],
    axis=0,
)
metricas.index = [
    "Baseline",
    "LGBMRegressor",
    "XGBRegressor",
    "HistGradientBoostingRegressor",
    "CatBoostRegressor",
]
metricas.round(2).sort_values(by="mean_absolute_error")
mean_absolute_error
HistGradientBoostingRegressor 46.62
LGBMRegressor 46.75
CatBoostRegressor 50.81
XGBRegressor 56.45
Baseline 91.67